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“现代 语言 学 丛书 ”修订 说 明 


外 教 社 “现代 语言 学 从 书 * 自 20 世 纪 80 年 代 面 世 以 来 ， 在 语言 学 界 
产生 了 深远 的 影响 ， 深 受 国内 外 广大 读者 的 赞誉 。 这 套 丛 书 的 作者 均 
为 我 国语 言 学 界 知名 专家 和 学 者 ， 在 语言 学 教学 和 人 研究 领域 成 束 右 
然 。 从 书 深入 、 系 统 地 介绍 了 现代 语言 学 各 领域 的 基本 理论 、 研 究 方 
法 和 学 术 成 果 ， 为 推动 我 国 的 语言 学 研究 和 外 语 教学 作出 了 积极 的 页 
献 。 


随 闭 语 言 科 学 的 不 断 发 展 ， 语 言 学 应 用 的 范围 也 越 加 冤 沁 。 作 为 
一 门 迅速 发 展 的 学 科 ， 近 年 来 ， 现 代 语 言 学 在 研究 语言 结构 、 语 言 运 
用 、 语 言 的 社会 功能 和 历史 发 展 等 领域 ,新 理论 、 新 方法 、 新 成 果 和 
新 动 问 层 出 不 穷 ， 人 研究 的 内 洱 逐 步 深 入 ， 外 延 也 不 断 拓 宽 ， 成 为 近 半 
个 世纪 以 来 发 展 最 快 、 变 化 最 大 的 人 文学 科 之 一 。 


为 使 国内 外 广大 读者 及 时 了 解 现 代 语言 学 各 个 领域 的 最 新 发 展 仿 
势 ， 外 教 社 对 “现代 语言 学 丛书 ”陆续 进行 修订 和 扩充 。 新 版 丛书 在 对 
原 有 的 学 术 精 华 进行 补充 和 完善 的 基础 上 ， 广 泛 吸 纳 近 20 年 来 国内 外 
语言 学 领域 的 最 新 研究 成 果 ， 融 “经 典 * 与 “创新 ”为 一 体 ， 从 而 更 具有 
学 术 性 、 科 学 性 和 实用 性 。 


作为 开放 系列 丛书 ， 这 套 丛 书 将 与 时 俱 进 ， 不 断 丰 语 学 科 内 容 ， 
拓宽 研究 领域 ， 为 广大 读者 展现 现代 语言 学 的 各 项 前 治 成 采 ， 从 而 更 
有 力 地 推动 这 一 学 科 的 建设 与 发 展 。 


上 海外 语 教 育 出 版 社 
2010 年 8 月 


总 序 
现代 语言 学 从 书 
(修订 版 ) 


“现代 语言 学 丛书 ” 目 20 世 纪 80 年 代 陆 续 推 出 之 后 ， 在 业内 产生 了 
深远 的 影响 。 该 套 丛 书 的 编 委 会 委员 和 编写 者 均 为 学 界 知名 专家 学 
者 ， 在 语言 学 的 不 同 领 域 取 得 了 很 大 成 束 。 正 是 他 们 的 蔷 勤 努力 使 得 
丛书 具备 普及 与 提高 相 结合 、 引 进 与 本 土 化 相 融 合 的 特色 ， 而 丛书 前 
沿 性 的 学 术 内 容 、 深 入 浅 出 的 理论 阐释 、 科 学 规范 的 研究 方法 等 使 融 
等 院 校 的 师 生 、 外 事 外 贸 单 位 的 翻译 、 新 闻 出 版 界 的 编辑 等 语言 工作 
者 和 学 习 者 受益 菲 浅 ， 得 到 他 们 广泛 的 认同 和 喜爱 ， 为 推动 我 国语 言 
学 的 研究 和 发 展 作 出 了 积极 的 页 献 。 


近 20 年 来 ， 现 代 语 言 学 作为 发 展 最 快 的 学 科 之 一 ， 有 许多 新 发 现 
和 新 成 有 果 ， 需 要 进行 多 角度 、 多 层次 、 全 方位 的 研究 。 目 前 人 文科 
学 、 社 会 科学 和 目 然 科 学 等 的 渗透 使 得 语言 学 的 分 文 更 加 丰富 ， 出 现 
了 越 来 越 多 的 交叉 学 科 。 语 言 学 家 的 全 完 视野 也 得 以 逐步 拓宽 ， 探 索 
更 加 深入 ， 人 研究 观念 不 断 更 新 ， 研 究 范 式 更 加 多 样 化 。 为 了 更 加 充分 
地 反映 这 一 发 展 趋 势 ， 及 时 疝 广 大 读者 反馈 语言 学 及 相关 学 科 的 最 新 
研究 成 果 ， 我 们 在 征求 编 委 会 委员 、 广 大 教师 和 学 生意 见 的 基础 上 ， 
对 “现代 语言 学 从 书 ” 进 行 修订 ， 力 求全 方位 呈现 该 学 科 领 域 的 新 理 
iE > BULA > BITTE > BEATE 。 


该 从 书 修订 版 一 方面 保留 了 原版 编者 权威 、 内 容 全 面 、 编 辑 规范 
的 特点 ， 男 一 方面 突出 “经 典 * 和 “新 灶 ” 两 个 特色 ， 注 重 学 术 历 史 积 演 
与 社会 发 展 的 契合 ， 使 从 书 更 加 具有 学 术 性 、 科 学 性 和 实用 性 。 这 套 
从 书 仍然 是 开放 的 ， 将 陆续 出 版 语言 学 及 相关 学 科 的 权威 人 研究 成 果 ， 
以 促进 我 国 的 语言 学 研究 的 学 科 建 设 。 首 批 推出 的 系列 著作 涉及 语言 
学 科 的 不 同 层 面 ， 涵 盖 学 科 人 研究 的 前 沿 内 容 和 最 新 成 果 ， 如 《语言 学 
新 视角 》、《“ 人 本 语义 学 ”十 论 》、《 语 言 系 统 及 其 运作 》 (修订 
AS) 、《 现 代 语 言 学 的 特点 和 发 展 趋势 》 (修订 本 ) 、《 比 较 词 源 研 


究 》 等 。 


作为 人 类 交流 的 工具 和 文化 的 载体 ， 语 言 的 重要 性 决定 了 语言 学 
的 重要 性 。 语 言 学 的 发 展 不 仅 受到 各 个 学 科 的 影响 ， 也 同时 影响 到 其 
他 各 学 科 的 发 展 。 只 有 充分 了 解 该 学 科 的 最 新 研究 人 态势， 切实 关注 语 
言 学 科 的 发 展 ， 才 能 更 好 地 了 解 语言 ， 运 用 语言 。 相 信 在 业内 专家 学 
者 和 广大 读者 的 文 持 下 , “现代 语言 学 丛书 ”修订 和 版 将 充分 发 挥 民 好 的 
学 术 影 响 ， 为 语言 学 及 相关 学 科 的 进一步 发 展 作出 更 大 页 献 。 


高 等 学 校外 语 专业 教学 指导 委员 会 主任 委员 
戴 炜 栋 
2010 年 9 月 
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总 序 ( 原 ) 


为 什么 出 版 《现代 语言 学 从 书 》? 


因为 我 们 感到 ， 中 国 现代 化 包括 许多 方面 的 工作 ， 其 中 之 一 是 语 
言 学 研究 的 现代 化 。 我 们 斋 望 这 一 套 丛 书 的 出 版 ， 会 有 助 于 这 一 工作 
的 开展 。 


近 几 十 年 来 ， 国 外 语言 学 的 研究 进展 很 快 。 一 方面 ， 关 于 语言 的 
内 部 结构 ， 出 现 了 各 种 理论 和 模式 ， 另 一 方面 ， 从 各 种 不 同 的 学 科 去 
研究 语言 ， 产 生 了 诸如 人 类 语言 学 、 社 会 语言 学 、 心 理 语言 学 、 神 经 
语言 学 、 计 算 语言 学 等 多 科 性 研究 。 了解 和 介绍 这 两 方面 的 理论 、 模 
式 、 实 验 和 数据 ， 供 我 国语 言 研 究 者 参考 ， 从 而 为 语言 学 研究 的 现代 
化 出 一 点 力 ， 这 是 我 们 的 希望 。 


要 做 到 语言 学 研究 的 现代 化 是 不 容易 的 。 首 先 要 对 国外 新 的 语言 
学 理论 加 以 分 析 和 比较 ， 作 出 我 们 目 己 的 判断 ; 更 重要 的 十 要 结合 汉 
语 的 研究 加 以 验证 ， 写 出 结合 中 国 实际 的 论著 。 我 们 这 里 先 做 第 一 步 
工作 。 


中 国语 言 学 史上 ， 不 乏 利用 外 国 的 语言 理论 ， 为 汉语 研究 开辟 新 
PSAP ^ APU: “ 切 韵 之 学 ， 起 目 西域 。” 马 建 忠 以 拉丁 文法 为 苑 
式 ， 写 出 了 《 马 氏 文通 》。 赵 元 任 、 罗 党 培 等 前 碍 和 匈 生 运 用 描写 语言 
学 的 方法 ， 为 我 国 方言 调查 做 出 了 典范 。 近 时 汉语 语法 学 家 利用 国外 


语言 学 的 人 研 完 方法 ， 使 语法 现象 的 分 类 和 范畴 的 描写 更 有 理据 ， 更 为 
精确 。 先 行者 研究 外 国语 言 理 论 的 态度 ， 永 远 是 值得 我 们 学 习 的 。 


作为 第 一 步 ， 我 们 打算 出 版 15 至 20 种 书 。 以 普及 为 主 ， 逐 步 提 
高 ， 以 引进 为 主 ， 同 时 注意 结合 我 国 的 实际 。 我 们 希望 和 国内 语言 学 
界 同志 共同 努力 ， 填 补 我 国语 言 学 科 中 的 一 些 空白 感 。 


我 们 心目 中 的 读者 ， 是 高 等 学 校 中 文 、 外 文 和 其 他 文史 专业 的 师 
生 ， 翻 译 界 、 痢 闻 出 版 界 人 士 ， 中 学 语文 教师 ， 以 及 一 般 语 文 工 作者 
和 爱好 者 。 我 们 将 力求 用 明白 易 慌 的 语言 介绍 新 的 学 说 和 理论 。 


我 们 将 注意 国外 新 出 的 语言 学 文献 ， 为 中 国 的 语言 学 的 现代 化 尽 
快 提供 信息 。 我 们 的 力量 还 很 薄弱 ， 我 们 要 努力 去 做 ， 并 热诚 布 望 国 
内 语言 学 者 和 语文 工作 者 给 予 指导 、 批 评 和 支持 。 


《现代 语言 学 丛书》 编 委 会 
1982 年 11 月 初稿 


1984 年 5 月 修改 稿 


-La 


可 


Tilt 


自然 语言 处 理 (Natural Language Processing, fai#KNLP) ， 就 是 
以 电子 计算 机 为 工具 ， 对 人 类 特有 的 书面 形式 和 口头 形式 的 自然 语言 
的 信息 进行 各 种 类 型 处 理 和 加 工 的 技术 。 这 项 技术 现在 已 经 形成 一 门 
专门 的 边缘 性 交叉 性 学 科 ， 它 涉及 语言 学 、 数 学 和 计算 机 科学 ， 横 跨 
文科 、 理 科 和 工科 三 大 知识 领域 。 目 然 语言 处 理 的 目的 在 于 建立 各 种 
目 然 语言 处 理 系 统 ， 如 机 器 翻译 系统 、 目 然 语言 理解 系统 、 信 息 目 动 
检索 系统 、 信 息 目 动 抽取 系统 、 文 本 信息 挖掘 系统 、 术 语 数据 库 系 
统 、 计 算 机 辅助 教学 系统 、 语 首 目 动 识别 系统 、 语 首 目 动 合成 系统 、 
文字 目 动 识别 系统 等 。 


目 然 语 言 处 理 钙 语言 文字 应 用 的 一 个 新 课题 ， 从 语言 学 的 观点 来 
看 ， 我 们 可 以 把 它 作为 应 用 语言 学 的 一 个 分 文 。 


自然 语言 处 理 又 是 人 工 智 能 (Artificial Intelligent, PRAI) 的 一 
个 主要 内 容 ， 它 是 电子 计算 机 模拟 人 类 智能 的 一 个 重要 方面 。 因 此 ， 
自然 语言 处 理 还 是 研制 智能 化 的 电子 计算 机 的 一 项 基础 性 工作 。 目 
前 ， 科 学 技术 的 发 展 突飞猛进 ， 信 息 的 数量 与 日 俱 增 ， 电 子 计 算 机 技 
术 得 到 越 来 越 广泛 的 运用 。 世 界 性 的 互联 网 《World Wide Web, ER 
WWW) 已 经 联 成 ， 并 向 语义 互联 网 (semantic web) 这 个 更 高 的 、 更 
加 智能 化 的 方向 发 展 。 智 能 化 的 电子 计算 机 和 智能 化 的 互联 网 已 经 不 
是 虚无 绿 绢 的 幻想 ， 而 是 指日可待 的 现实 。 当 前 ， 美 国 、 英 国 、 日 本 
等 发 达 国 家 ， 都 投入 大 量 的 人 力 、 物 力 和 财力 ， 把 智能 化 电子 计算 机 


和 智能 化 互联 网 的 研制 放 在 十 分 突出 的 地 位 ， 这 对 于 人 类 社会 将 产生 
不 可 佑 量 的 影响 。 它 同人 类 历史 上 语言 的 出 现 、 文 字 的 创造 、 造 纸 技 
术 的 发 明 以 及 印刷 技术 的 发 明 一 样 ， 将 成 为 人 类 文明 史上 的 又 一 件 大 
H o 


目 然 语 言 鲜 人 类 区 别 于 其 他 动物 的 重要 标志 之 一 。 人 借助 于 目 然 
语言 交流 思想 ， 互 相 了 解 ， 组 成 社会 ， 人 还 借助 目 然 语言 进行 思维 活 
动 ， 认 识 事物 的 本 质 和 规律 ， 创 造 了 人 类 的 物质 文明 和 精神 文明 。 


自然 语言 是 人 脑 的 高 级 功能 之 一 。 心 理学 研究 表明 ， 人 脑 的 语言 
功能 具有 一 侧 化 的 性 质 ， 它 主要 定位 在 大 脑 左 半球 ， 由 大 脑 左 半球 所 
控制 。 因 此 ， 目 然 语言 是 人 类 特有 的 一 种 最 重要 的 智能 ， 智 能 化 电子 
计算 机 和 智能 化 互联 网 的 研究 离 不 开 目 然 语言 处 理 ， 目 然 语言 处 理 的 
研究 水 平 ， 在 智能 化 计算 机 和 智能 化 互联 网 的 研制 中 ， 起 着 举足轻重 
的 作用 。 我 们 中 国 的 自然 语言 处 理工 作者 ， 应 该 站 在 电子 计算 机 和 互 
联网 的 智能 化 这 样 的 高 度 ， 以 战略 的 眼光 来 看 待 目 然 语言 处 理 技术 的 
研究 ， 把 我 国 的 目 然 语 言 处 理 提 高 到 一 个 新 的 水 平 。 


在 计算 机 软件 中 ， 早 已 设计 了 许多 人 工 语 言 ， 如 BASIC ` 
PASCAL、COBOL、PROLOG、LISP 等 程序 设计 语言 ， 这 些 人 工 语言 
与 自然 语言 一 样 ， 都 遵循 着 形式 语言 的 规律 和 法 则 。 美 国语 言 学 家 乔 
姆 斯 基 (N. Chomsky) 的 形式 语言 理论 ， 既 适用 于 人 工 语言 ， 也 适用 
于 自然 语言 ， 这 有 力 地 说 明 ， 自 然 语 言 与 人 工 语 言 之 间 ， 在 形式 描述 
方面 ， 确 实 存 在 着 某 些 共同 的 性 质 。 正 如 美国 著名 的 逻辑 学 家 蒙 塔 证 
(R. H. Montague) 在 《英语 作为 一 种 形式 语言 》 一 文中 所 说 的 : “我 
并 不 认为 形式 语言 和 自然 语言 在 理论 上 存在 着 重要 的 区 别 。” 


但 是 ， 目 然 语言 毕 苋 钙 人 类 历史 长 期 发 展 而 约定 俗 成 的 产物 ， 它 
带 着 几 千 年 人 类 历史 的 痕迹 ， 比 人 工 语 言 要 复杂 得 多 ， 因 而 用 计算 机 
处 理 起 来 也 就 困难 得 多 。 


目 然 语言 起 码 在 下 面 四 个 方面 与 人 工 语言 大 相 径 星 : 


(1) 自然 语言 中 充满 着 歧义 ， 而 人 工 语言 中 的 卜 义 则 是 可 以 控制 
AY; 


(2) 目 然 语言 的 结构 复杂 多 样 ， 而 人 工 语 言 的 结构 则 相对 简单 ; 


(3) 自然 语言 的 语义 表达 王 变 万 化 ,迄今 还 没有 一 种 简单 而 通用 
的 途径 来 描述 它 ， 而 人 工 语言 的 语义 则 可 以 由 人 来 直接 定义 ; 


(4) 自然 语言 的 结构 和 语义 之 间 有 着 干 丝 万 缕 的 、 错 综 复 杂 的 联 
JR. 一般 不 存在 一 一 对 应 的 同 构 关 系 ， 而 人 工 语 言 则 第 第 可 以 把 结构 
和 语义 分 别 进行 处 理 ， 人 工 语言 的 结构 和 语义 之 间 有 着 整齐 的 一 一 对 
应 的 同 构 关 系 。 


目 然 语言 的 这 些 独 特性 质 ， 使 得 目 然 语言 处 理 成 为 人 工 智 能 领域 
的 一 大 难题 。 目 然 语言 处 理 的 种 种 难题 弟 肖 使 妍 究 者 们 陶 入 困境 ， 一 
等 莫 展 。 然 而 ， 这 些 困 难 却 吸引 了 一 大 批 敢 于 迎 难 而 上 的 、 翅 无 长 惧 
的 探索 者 。 他 们 以 克服 困难 为 宁 ， 每 当 他 们 有 所 前 进 的 时 候 ， 殊 会 产 
生 “ 山 重水 复 疑 元 路， 柳暗花明 叉 一 村 ”的 清新 之 感 ， 体 会 到 胜利 者 的 
欢乐 。 有 志 于 目 然 语言 处 理 的 探索 者 束 像 科学 战线 上 的 侦察 兵 ， 对 于 


借 察 兵 来 说 ， 没 有 道路 的 路 ， 才 是 最 好 的 路 。 目 然 语言 处 理 有 如 一 条 
充满 艰险 的 荆 束 之 路 ， 一 旦 补 勇 于 探索 的 侦察 兵 开 通 了 ， 丈 成 了 一 条 


坦途 。 正 征 出 于 这 种 对 未 来 的 坚强 信念 ， 从 20 世 纪 50 年 代 以 来 ， 国 内 


外 学 者 在 这 个 新 的 学 科 领 域 进行 了 不 届 不 挠 的 探索 ， 历 时 50 余 年 ， 现 
在 已 经 取得 了 可 喜 的 成 绩 。 


自然 语言 处 理 有 时 也 叫做 “计算 语言 学 ” (Computational 
Linguistics) 。 本 书 着重 讲 自然 语言 处 理 的 方法 ， 当 涉及 自然 语言 处 理 
的 基本 理论 的 时 候 ， 我 们 才 使 用 计算 语言 学 这 个 术语 ， 也 融 是 说 ， 目 
然 语 言 处 理 这 个 术语 主要 用 于 说 明 方 法 ， 计 算 语 言 学 这 个 术语 主要 用 
于 说 明理 论 。 两 者 各 有 分 工 ， 以 体现 它们 各 目的 特点 。 


我 曾 于 1979 年 一 1981 年 在 法 国 格 勒 诺 布尔 大 学 (Université de 
Grenoble) 自动 翻译 中 心 (GETA) 学 习 ， 师 从 当时 的 国际 计算 语言 学 
委员 会 主席 沃 古 瓦 (B.Vauquois) 教授 ， 进 行 汉 外 多 语言 机 器 翻译 试 
验 ， 人 研制 了 世界 上 第 一 个 汉语 到 多 种 外 语 的 机 器 翻译 系统 FAJRA 。 
1986 年 一 1988 年 我 又 到 联邦 德国 夫 环 禾 费 研 究 院 新 信息 技术 与 通讯 系 
统 研 究 所 担任 客座 研究 员 ， 进 行 了 术语 数据 库 的 开发 研究 ， 研 制 了 世 
界 上 第 一 个 中 文 术语 数据 库 GLOTC， 在 20 世 纪 80 年 代 汉 字 输 入 输出 
技术 尚未 成 熟 的 情况 下 ， 我 在 德国 孤军 盏 战 ， 使 用 Unix 操 作 系 统 和 
Ingres 关 系数 据 库 ， 分 别 做 出 了 “数据 处 理 * 中 文 术 语 的 人 简体字、 繁体 字 
和 竖 排 索引 ， 并 用 上 下 文 无 天 语法 ， 对 于 中 文 术 语 的 结构 进行 了 自动 
分 析 。1990 年 一 1993 年 我 在 联邦 德国 特 里 尔 大 学 担任 客座 教授 ， 讲 授 
中 文 信息 处 理 和 机 器 翻译 等 课程 。 在 前 后 儿 次 出 国 期 间 ， 我 有 机 会 直 
接 阅 读 到 国外 目 然 语言 处 理 研 究 的 最 新 文献 ， 亲 目 了 解 到 国外 这 个 领 
域 的 最 新 成 果 ， 分 别 拜 访 了 好 几 位 国外 在 这 个 领域 中 卓 有 建 树 的 专家 
学 者 ， 这 使 我 对 于 上 自然 语言 处 理 有 了 更 深 的 认识 ， 和 耳目 为 之 一 新 。 
1994 年 9 月 ， 我 写成 了 《有 目 然 语言 的 计算 机 处 理 》 一 书 ， 由 北京 外 国语 
大 学 许 国 璋 教授 和 中 山大 学 王 罕 炎 教 授 推 荐 给 上 海外 语 教育 出 版 社 ， 
于 1996 年 10 月 出 版 。 在 这 本 书 中 ， 我 力图 把 在 国外 学 习 和 人 研究 的 所 得 


有 反映 出 来 ,在 写法 上 以 及 章 市 的 安排 上 ， 受 到 了 国外 有 关 目 然 语言 处 
理 闭 作 的 局 发 和 影响 。 此 书 出 版 后 受到 广大 读者 的 欢迎 ， 由 于 印 数 很 
少 ， 很 快 疯 销售 一 空 ， 市 场 上 早已 买 不 到 此 书 了 。 


1996 年 《 目 然 语言 的 计算 机 处 理 》 一 书 出 版 以 来 ， 目 然 语 言 处 理 
日 新 月 异地 发 展 ， 不 论 在 理论 还 是 在 技术 上 ， 部 有 了 重要 的 发 展 。 由 
于 互联 网 (Web) 的 普及 ， 目 然 语 言 的 计算 机 处 理 成 为 了 从 互联 网 上 
获取 知识 的 重要 和 手段， 生活 在 信息 网 络 时 代 的 现代 人 ， 几 乎 都 要 与 互 
联网 打交道 ， 或 多 或 少 ， 痢 要 借助 目 然 语 言 处 理 的 研究 成 果 来 获取 或 
挖掘 广阔 无 边 的 互联 网 上 的 各 种 知识 和 信息 。 因 此 ， 世 界 各 国都 非常 
重视 目 然 语 言 处 理 的 研究 ， 在 其 中 投入 了 大 量 的 人 力 、 物 力 和 财力 。 


当前 自然 语言 处 理 的 发 展 表现 在 下 面 五 个 方面 ; 


第 一 ， 基 于 句法 一 语义 规则 的 理性 主义 方法 受到 质疑 ， 随 着 语料库 建 
设 和 语料库 语言 学 的 崛起 ， 大 规模 真实 文本 的 处 理 成 为 自然 语言 处 理 
的 主要 战略 目标 ， 概 率 和 数据 驱动 的 方法 几乎 成 为 了 自然 语言 处 理 的 
标准 方法 。 


在 过 去 的 40 多 年 中 ， 从 事 自 然 语言 处 理 系统 开发 的 绝 大 多 数学 
者 ， 基 本 上 都 采用 基于 规则 的 理性 主义 方法 ， 这 种 方法 的 哲学 基础 是 
逻辑 实证 主义 ， 他 们 认为 ， 智 能 的 基本 单位 是 符号 ， 认 知 过 程 殉 是 在 
符号 的 表征 下 进行 符号 运算 ， 因此， 思维 束 是 符号 运算 。 


著名 语言 学 家 弗 托 (J. A. Fodor) 在 Representations 一 书 中 
ii: “只 要 我 们 认为 心理 过 程 是 计算 过 程 (因此 是 由 表征 式 定 义 的 形式 
操作 ) ， 那 么 ， 除 了 将 心灵 看 作 别 的 之 外 ， 还 自然 会 把 它 看 作 一 种 计 
算 机 。 也 就 是 说 ， 我 们 会 认为 ,假设 的 计算 过 程 包 含 哪 些 符 号 操作 ， 


心灵 也 就 进行 哪些 符号 操作 。 因 此 ， 我 们 可 以 大 任 上 认为 ， 心 理 操作 
跟 图 灵机 的 操作 十 分 类 似 。” 岂 弗 托 的 这 种 说 法 代表 了 自然 语言 处 理 
中 的 基于 规则 (符号 操作 ) 的 理性 主义 观点 。 


这 样 的 观点 受到 了 学 者 们 的 批评 。 塞 尔 (J. R. Searle) 在 他 的 论 
文 《 心 智 、 大 脑 与 程序 》 (Minds, Brains and Programmes) [2 rp, $é 
出 了 所 谓 “ 中 文 屋子 ”的 质疑 。 他 提出 ， 假 设 有 一 个 懂得 器 文 但 是 不 慌 
中 文 的 人 被 关 在 一 个 屋子 中 ， 在 他 面前 是 一 组 用 英文 写 的 指令 ， 说 明 
瑞 文 符号 和 中 文 符号 之 间 的 对 应 和 操作 关系 。 这 个 人 要 回答 用 中 文书 
写 的 几 个 问题 ， 为 此 ， 他 首先 要 根据 指令 规则 来 操作 问题 中 出 现 的 中 
文人 特写， 理解 问题 的 含义 ， 然 后 再 使 用 指令 规则 把 他 的 答案 用 中 文 一 
个 一 个 地 写 出 来 。 比 如 ， 对 于 中 文书 写 的 问题 Q1 用 中 文 写 出 答案 A1， 
对 于 中 文书 写 的 问题 Q2 用 中 文 写 出 答案 A2， 如 此 等 等 。 这 显然 是 非常 
困难 的 ， 是 几乎 不 能 实现 的 事情 。 而 且 ， 即 使 这 个 人 能 够 这 样 做 ， 也 
不 能 证 明 他 理解 了 中 文 ， 只 能 说 明 他 毒 于 根据 规则 做 机 械 的 操作 而 
已 。 塞 尔 的 批评 使 基于 规则 的 理性 主义 的 观点 受到 了 普 壳 的 怀疑 。 


理性 主义 方法 的 另 一 个 弱点 是 在 实践 方面 的 。 目 然 语言 处 理 的 理 
性 主义 者 把 自己 的 目的 局 限于 某 个 十 分 狭窄 的 专业 领域 之 中 ， 他 们 采 
用 的 主流 技术 是 基于 规则 的 句法 一 语义 分 析 ， 尽 管 这 些 应 用 系统 在 某 
些 受 限 的 “ 子 语 言 ” (sub-language) 中 也 曾经 获得 一 定 程度 的 成 功 ， 但 
是 ， 要 想 进 一 步 扩 大 这 些 系统 的 履 盖 面 ， 用 它们 来 处 理 大 规模 的 真实 
文本 ， 仍 然 有 很 大 的 困难 。 因 为 从 目 然 语 言 系统 所 需要 装备 的 语言 知 
识 来 看 ， 其 数量 之 浩大 和 颗粒 度 之 精细 ， 都 是 以 往 的 任何 系统 所 远 远 
不 及 的 。 而 且 ， 随 着 系统 拥有 的 知识 在 数量 上 和 程度 上 发 生 的 巨大 变 
化 ， 系 统 在 如 何 获 取 、 表 示 和 管理 知识 等 基本 问题 上 ， 不 得 不 另 辟 蹊 
径 。 这 样 ， 在 自然 语言 处 理 研 究 中 就 提出 了 大 规模 真实 文本 (large- 


scale and authentic text) 的 处 理 问 题 。1990 年 8 月 在 芬兰 赫尔辛基 举行 
的 第 13 届 国际 自然 语言 处 理会 议 ( 即 COLING'90) 为 会 前 讲座 确定 的 
主题 是 : “处 理 大 规模 真实 文本 的 理论 、 方 法 和 工具 ”， 这 说 明 ， 实 现 
大 规模 真实 文本 的 处 理 已 经 成 为 目 然 语言 处 理 在 今后 一 个 相当 长 的 时 
期 内 的 战略 目标 。 为 了 实现 战略 目标 的 转移 ， 需 要 在 理论 、 方 法 和 工 
具 等 方面 实行 重大 的 革新 。1992 年 6 月 在 加 拿 大 蒙特 利 尔 举行 的 第 四 届 
机 器 翻译 的 理论 与 方法 国际 会 议 ( 即 TMI-'92) 上 ， 宣 布 会 议 的 主题 
是 “机 器 翻译 中 的 经 验 主义 和 理性 主义 的 方法 ”。 所 谓 “ 理 性 主义 ”>， 职 
是 指 以 生成 语言 学 为 基础 的 方法 ， 所 谓 “ 经 验 主义 ”， 就 是 指 以 大 规模 
语料库 的 分 析 为 基础 的 方法 。 从 中 可 以 看 出 当前 自然 语言 处 理 天 注 的 
焦点 。 当 前 语料库 的 建设 和 语料库 语言 学 (corpus linguistics) AYE 
起 ， 正 是 目 然 语言 处 理 战 略 目 标 转移 的 一 个 重要 标志 。 随 着 人 们 对 大 
规模 真实 文本 处 理 的 日 益 关 注 ， 越 来 越 多 的 学 者 认识 到 ， 基 于 语料库 
的 分 析 方 法 ( 即 经 验 主义 的 方法 ) 至 少 是 对 基于 规则 的 分 析 方 法 (BE 
理性 主义 的 方法 ) 的 一 个 重要 补充 。 因 为 从 “大 规模 "和 “真实 ”这 两 个 
因素 来 考察 ， 语 料 库 才 是 最 理想 的 语言 知识 资源 。 


目前 ， 基 于 大 规模 真实 语料库 的 概率 和 数据 弛 动 的 方法 几乎 成 为 
了 目 然 语 言 处 理 的 标准 方法 。 句 法 谢 析 、 词 类 标注 、 参 照 消解 、 话 语 
分 析 、 机 器 翻译 的 技术 全 都 开始 引入 概率 ， 并 且 采 用 从 语 首 识别 和 信 
轧 检 索 中 借 过 来 的 基于 概率 和 数据 驱动 的 评测 方法 。 


这 种 概率 和 数据 驱动 的 方法 影响 到 了 语言 材料 的 搜集 、 整 理 和 加 
IL, 促进 了 语言 学 研究 方法 的 变革 。 理 论语 言 学 的 研究 必须 以 语言 
实 作 为 根据 ， 必 须 详尽 地 、 大 量 地 占有 材料 ， 才 有 可 能 在 理论 上 得 出 
比较 可 靠 的 结论 。 传 统 的 语言 材料 的 搜集 、 整 理 和 加 工 完 全 古 手 工 进 
行 的 ， 这 有 是 一 种 枯燥 无 味 、 费 力 费 时 的 工作 。 计 算 机 出 现 后 ， 人 们 可 


以 把 这 些 工 作 交 给 计算 机 去 作 ， 这 大 大 地 减轻 了 人 人 们 的 劳动 。 后 来 ， 
在 这 种 工作 中 逐渐 创造 了 一 整套 完整 的 理论 和 方法 ， 形 成 了 语料库 语 
言 学 ， 并 成 为 了 目 然 语言 处 理 的 一 个 分 文学 科 。 语 料 库 语言 学 主要 人 研 
完 机 套 可 读 目 然 语言 文本 的 采集 、 存 储 、 检 索 、 统 计 、 语 法 标注 、 句 
法 语义 分 析 ， 以 及 具有 上 述 功 能 的 语料库 在 语言 定量 分 析 、 词 典 编 
复 、 作 品 风格 分 析 、 目 然 语言 理解 和 机 需 翻 译 等 领域 中 的 应 用 。 


第 二 ， 自 然 语言 处 理 中 越 来 越 多 地 使 用 机 器 自动 学 习 的 方法 来 获取 语 
言 知识 。 


目 然 语 言 中 处 理 中 的 经 验 主义 倾 呵 始 于 20 世 纪 90 年 代 ， 在 21 世 纪 
它 更 以 惊人 的 步伐 同 前 推进 。 这 样 的 加 速 发 展 在 很 大 的 程度 上 受到 下 
面 三 种 彼此 协同 的 趋势 的 推动 。 


第 一 个 趋势 是 建立 带 标 记 语 料 库 的 趋势 。 在 语言 数据 联盟 
(Linguistic Data Consortium， 简 称 LDC) 和 其 他 相关 机 构 的 帮助 下 ， 
研究 者 们 可 以 获得 口语 和 书面 语 的 大 规模 的 语 料 。 重 要 的 是 ， 在 这 些 
语 料 中 还 包括 一 些 标注 过 的 语 料 ， 如 宾 州 树 库 (Penn Treebank) 、 布 
拉 格 依存 树 库 (Prague Dependency Tree Bank) 、 宾 州 命 题 语 料 库 

(PropBank) ， 宾 州 话 语 树 库 (Penn Discourse Treebank) 、 修 辞 结构 
JÆ (RST-Bank) 和 TimeBank。 这 些 语 料 库 是 带 有 名 法、 语义 和 语 用 等 
不 同 层 次 的 标记 的 标准 文本 语言 资源 。 这 些 语言 资源 的 存在 大 大 地 推 
动 了 人 们 使 用 有 监督 的 机 器 学 习 方 法 来 处 理 那 些 在 传统 上 非常 复杂 的 
目 动 剖析 和 上 自动 语义 分 析 等 问题 。 这 些 语言 资源 也 推动 了 有 竞争 性 的 
评测 机 制 的 建立 ， 评 测 的 范围 涉及 到 上 自动 剖析 、 信 息 抽 取 、 词 义 排 
歧 、 问 答 系 统 、 目 动 文摘 等 领域 。 


第 二 个 趋势 古 统 计 机 器 学 习 的 趋势 。 对 于 机 器 学 习 的 日 益 增 长 的 
重视 ， 导 致 了 学 者 们 与 统计 机 右 学 习 的 研究 者 更 加 频繁 地 交互 ， 彼 此 
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上 等 价 的 多 项 逻辑 回归 、 图 式 贝 叶 斯 模型 等 技术 的 研究 ， 都 成 为 了 目 
然 语 言 处 理 的 标准 研究 实践 活动 。 


第 三 个 趋势 是 高 性 能 计算 机 系统 发 展 的 趋势 。 高 性 能 计算 机 系统 
的 广 沁 应 用 ， 为 机 器 学 习 系 统 的 大 规模 训练 和 效能 发 挥 提供 了 有 利 的 
条 件 ， 而 这 些 在 20 世 纪 是 难以 想象 的 。 


最 后 应 当 指出 ， 在 20 世 纪 90 年 代 末 期 ， 大 规模 的 无 监督 统计 学 习 
方法 得 到 了 重新 关注 。 机 器 翻译 和 主题 模拟 等 领域 中 统计 方法 的 进 
步 ， 说 明了 也 可 以 只 训练 完全 没有 标注 过 的 数据 来 构建 机 絮 学 习 系 
统 ， 这 样 的 系统 也 可 以 得 到 有 效 的 应 用 。 由 于 建造 可 靠 的 标注 语料库 
要 花费 很 高 的 成 本 ， 建 造 的 难度 很 大 ， 在 很 多 问题 中 ， 这 成 为 了 使 用 
有 监督 的 机 器 学 习 方 法 的 一 个 限制 性 因素 。 因 此 ， 这 个 趋势 的 进一步 
发 展 ， 将 使 我 们 更 多 地 使 用 无 监督 的 机 器 学 习 (unsupervised machine 
learning) 技术 。 


传统 语言 学 基本 上 走 通 过 语言 学 家 目 行 归纳 总 结语 言 现象 的 手工 
方法 来 获取 语言 知识 的 ， 由 于 人 的 记忆 力 有 限 ， 任 何 语言 学 家 ， 哪 怕 
是 语 言 学 界 的 权威 泰斗 ， 都 不 可 能 记忆 和 处 理 浩 如 烟 海 的 全 部 的 语言 
数据 ， 因 此 ， 使 用 传统 的 手工 方法 来 获取 语言 知识 ， 犹 如 以 管 窑 豹 ， 
以 荔 测 海 ， 这 种 获取 语言 知识 的 方法 不 仅 效率 极 低 ， 而 且 带 有 很 大 的 
主观 性 。 


由 于 目 然 语言 现象 充满 了 例外 ， 治 学 严 齐 的 传统 语言 学 家 们 提出 
TARF, DAE” GER, 1924) 中 和 “例外 不 十 ， 法 不 破 ”( 王 


力 ，1988) 里 的 原则 。 这 样 的 原则 摇 似 严格 ， 实 际 上 却 是 片面 的 。 在 
成 十 上 万 的 语言 数据 中 ， 只 是 靠 十 个 例子 或 十 个 例外 束 来 决定 规则 的 
取舍 ， 难 道真 的 能 够 保证 万 无 一 失 吗 ? 显然 是 不 能 的 。 因 此 ,“ 例 不 
十 ， 不 立法 ” “例外 不 十 ， 法 不 破 ” 的 原则 只 是 一 个 貌似 严格 的 原则 ， 
实际 上 很 不 挛 格 。 


当前 的 目 然 语 言 处 理 研 究 担 倡 建 立 语料库 ， 使 用 机 器 学 习 的 方 
法 ， 让 计算 机 自动 地 从 浩如烟海 的 语料库 中 获取 准确 的 语言 知识 。 机 
右 词 典 和 大 规模 语料库 的 建设 ， 成 为 了 当前 目 然 语言 处 理 的 热点 。 这 
征 语 言 学 获取 语言 知识 方式 的 巨大 变化 ， 作 为 21 世 纪 的 语言 学 工作 
者 ， 我 们 都 应 该 注意 到 这 样 的 变化 ， 并 逐渐 改变 获取 语言 知识 的 手 


段 。 


使 用 这 种 机 器 学 习 方 法 开发 出 来 的 基于 语料库 的 目 动 分 析 软 件 是 
独立 于 具体 语言 的 。 只 要 有 训练 语料库 ， 即 使 研究 者 不 全 有 关 的 语 
言 ， 仍 然 可 以 使 用 目 动 分 析 软 件 得 出 不 错 的 分 析 结 末 。 这 样 的 机 硕 学 
习 方 法 达到 的 分 析 精 度 已 经 可 以 与 基于 规则 的 方法 达到 的 精度 相 絮 
美 。 这 古 在 语言 学 历史 上 获取 语言 学 知识 方法 的 革命 性 变革 ， 每 一 个 
语言 学 工作 者 都 应 当 敏锐 地 认识 到 这 样 的 变革 ， 改 变 陈旧 的 、 传 统 的 
知识 获取 方法 ， 采 用 新 凌 的 、 现 代 的 知识 获取 方法 。 


第 三 ， 统 计数 学 方法 越 来 越 受到 重视 。 


目 然 语言 处 理 中 越 来 越 多 地 使 用 统计 数学 方法 来 分 析 语 言 数 据 ， 
使 用 人 工 观察 和 内 省 的 方法 ， 显 然 不 可 能 从 浩如烟海 的 语料库 中 获取 
精确 可 靠 的 语言 知识 ， 必 须 使 用 统计 数学 的 方法 。 


语言 模型 生 描 述 目 然 语 言 内 在 规律 的 数学 模型 ， 构 造 语言 模型 是 
目 然 语 言 处 理 的 核心 。 语 言 模 型 可 以 分 为 传统 的 规则 型 语言 模型 和 基 
于 统计 的 语言 模型 。 规 则 型 语言 模型 是 人 工 编制 的 语言 规则 ， 这 些 语 
言 规则 主要 来 自 语 言 学 家 掌握 的 语言 学 知识 ， 具 有 一 定 的 主观 性 和 乒 
面 性 ， 难 以 处 理 大 规模 的 真实 文本 。 基 于 统计 的 语言 模型 通常 是 概率 
模型 ， 计 算 机 借助 于 语言 统计 模型 的 概率 参数 ， 可 以 估计 出 目 然 语言 
中 语言 成 分 出 现 的 可 能 性 ， 而 不 是 单纯 地 判断 这 样 的 语言 成 分 和 是否 符 
合 语言 学 规则 ， 这 种 概率 性 的 语言 统计 模型 显然 比 规则 型 语言 模型 更 
加 客观 和 全 面 。 


目前 ， 上 自然 语言 处 理 中 的 语言 统计 模型 已 经 相当 成 熟 ， 例 如 ， 隐 
马尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM) 、 概 率 上 下 文 无 
关 语 法 (Probabilistic Context-Free Grammar， 人 简称 PCFG) 、 基 于 决策 
树 的 语言 模型 ( Decision-Tree Based Model) 、 最 大 炉 语 言 模型 
(Maximum Entropy Model) ` xf m Æl (Support Vector Machine, 
简称 SVM) 、 条 件 随机 场 (Condition Random Field， 人 简称 CRF) 等 。 
研究 这 样 的 语言 统计 模型 需要 具备 统计 数学 的 知识 ， 因 此 ， 我 们 应 当 
努力 进行 知识 更 新 ， 学 习 统计 数学 。 如 果 我 们 认真 地 学 会 了 统计 数 
学 ， 熟 练 地 掌握 了 统计 数学 ， 残 会 使 我 们 在 获取 语言 知识 的 过 程 中 如 


第 四 ， 目 然 语 言 处 理 中越 来 越 重视 词汇 的 作用 ， 出 现 了 强烈 的 “词汇 主 
义 ” 的 倾向 。 


弗 斯 语言 学 (Firthian linguistics) 认为 ， 词 汇 是 语言 描述 的 中 心 。 
19572, Wr (Firth) 首先 提出 了 搭配 和 类 连接 理论 ， 将 词汇 内 容 从 
语法 和 语义 学 中 分 离 出 来 。 后 来 ， 新 弗 斯 学 者 坚持 以 词汇 研究 为 中 
心 ， 强 调 词汇 与 语法 的 辩证 关系 ， 深 入 发 展 了 弗 斯 的 词汇 理论 。 韩 礼 


fe (Halliday) 提出 词汇 不 是 用 来 填充 语法 确定 的 一 套 空 位 (slots) . 
而 是 一 个 独立 的 语言 学 层面 ;词汇 研究 可 以 作为 对 语法 理论 的 补充 ， 
却 不 是 语法 理论 的 一 部 分 。 


近 些 年 来 ， 语 料 库 证 据 文 持 的 词汇 学 研究 建 劲 发 展 。 越 来 越 多 的 
实证 研究 表明 ， 词 汇 和 语法 在 语言 中 是 交织 在 一 起 的 ， 必 须 整合 起 来 
进行 描述 。 词 汇 征 话语 实现 的 主要 载体 ， 语 法 的 作用 仅仅 是 管理 意 
义 、 组 合成 份 和 构筑 词 项 。 


在 乔 姆 斯 基 提 出 的 “最 简 方案 ”(\Program Minimalism) F, MEE 
要 的 语法 原则 直接 运用 于 表层 ， 把 具体 的 规则 减少 到 最 低 限 度 ， 不 同 
语言 之 间 的 差异 由 词汇 来 处 理 ， 也 非常 重视 词汇 的 作用 。1999 年 ， 史 
密斯 (N. Smith) 在 Chomsky: Ideas and Ideals 一 书 中 甚至 认为 , “词汇 
是 语言 间 所 有 差异 的 潜在 所 在 。 排 除 词汇 差异 这 一 因素 ， 人 类 的 语言 
只 有 一 种 。” 间 | 


理论 语言 学 中 的 这 种 强调 词汇 作用 的 倾 问 ， 叫 做 “词汇 主 


义 ” (lexicalism) 。 


这 种 词汇 主义 的 倾 问 也 影响 到 目 然 语言 处 理 。 


目 然 语 言 中 充满 了 歧义 ， 目 然 语言 处 理 的 学 者 们 注意 到 ， 歧 义 问 
题 的 解决 不 仅 与 概率 和 结构 有 关 ， 还 往往 与 词汇 的 特性 有 关 ; 英语 中 
的 介词 短语 附着 问题 (又 叫做 “PP 附着 问题 ") 和 并 列 结构 卜 义 问题 ， 
都 必须 依靠 词汇 知识 才能 解决 。 事 实证 明 ， 尽 管 在 目 然 语 言 处 理 中 使 
用 数学 ， 使 用 概率 的 方法 ， 在 遇 到 词汇 依存 问题 的 时 候 往往 显得 捉 襟 
见 肘 、 无 能 为 力 ， 我 们 还 需要 探索 其 他 的 途径 来 进一步 提升 概率 语法 
的 功能 ， 其 中 的 一 个 有 效 的 途径 ， 吏 是 在 概率 语法 中 引入 词汇 信息 。 


当前 ， 词 汇 知识 库 的 建造 成 为 了 普 过 关注 的 问题 。 美 国 的 
WordNet、EFrameNet 以 及 我 国 各 种 语法 知识 库 和 语义 知识 库 的 建设 ， 
都 反映 了 这 种 强烈 的 “词汇 主义 ”的 倾 癌 。 


第 五 ， 多 语言 在 线 目 然 语 言 处 理 技术 迅猛 发 展 。 随 着 网 络 技术 的 发 
E, EKI (Web) 逐渐 变 成 一 个 多 语言 的 网 络 世界 ， 互 联网 上 的 机 
器 翻译 、 信 息 检 索 和 信息 抽取 等 自然 语言 处 理 的 需要 变 得 更 加 紧迫 。 


在 这 个 信息 网 络 时 代 ， 科 学 技术 的 发 展 日 新 月 异 ， 新 的 信息 、 新 
的 知识 如 雨后春笋 地 不 断 增 加 ， 出 现 了 “信息 爆炸 ” (information 
explosion) 的 局 面 。 现 在 ， 世 界 上 出 版 的 科技 刊物 达 165,000 种 ， 平 均 
每 天 有 大 约 20,000 篇 科技 论文 发 表 。 专 家 估计 ， 我 们 目前 每 天 在 互联 
网 上 传输 的 数据 量 之 大 ， 已 经 超过 了 整个 19 世 纪 的 全 部 数据 的 总 和 ; 
我 们 在 21 世 纪 所 要 处 理 的 知识 总 量 将 要 大 大 地 超过 我 们 在 过 去 2500 年 
的 历史 长 河中 所 积累 起 来 的 知识 总 量 。 据 中 国 互联 网 络 信息 中 心 
(CNNIC) 统计 ，2002 年 底 全 球 的 网 页 总 数 已 经 达到 103 这 样 的 天 文 
数字 ， 信 息 量 的 丰富 大 大 地 扩张 了 人 们 的 视野 ， 人 们 希望 能 够 准确 
地 、 迅 速 地 获取 到 自己 需要 的 信息 ， 自 然 语言 信息 处 理 技术 已 经 成 为 
了 解决 海量 信息 的 获取 问题 的 强 有 力 的 手段 。 


而 所 有 的 这 些 信息 主要 都 症 以 语言 文字 作为 载体 的 ， 也 就 是 说 ， 
网 络 世界 主要 是 由 语言 文字 构成 的 。 


从 2000 年 到 2005 年 ， 互 联网 上 使 用 英语 的 人 数 仅 仅 增 加 了 
126.9%， 而 在 此 期 间 ， 互 联网 上 使 用 俄语 的 人 数 增加 了 664.5%， 使 用 
和 葡萄牙 语 的 人 数 增 加 了 327.3%， 使 用 中 文 的 人 数 增加 了 309.6%， 使 用 
法 语 的 人 数 增加 了 235.9%。 互 联网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 
增加 得 越 来 越 多 ， 英 语 在 互联 网 上 独霸 天 下 的 局 面 已 经 打破 ， 互 联网 


确实 已 经 变 成 了 多 语言 的 网 络 世 界 。 英 语 、 汉 语 、 日 语 、 西班牙 语 、 
德语 、 法 语 、 韩 国语 、 和 葡萄 牙 语 、 意 大 利 语 和 俄语 成 为 了 十 大 网 络 语 


一 人 
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据 CNNIC 统 计 ， 截 至 2008 年 6 月 底 ， 我 国 的 互联 网 网 民 人 数 已 经 
达到 2.53 亿 ， 超 过 了 美国 的 网 民 人 数 ， 成 为 了 世界 上 互联 网 用 户 最 多 
的 国家 。 


CNNIC 统 计数 据 最 近 又 显示 ， 截 至 2008 年 12 月 31 日 ， 我 国 网 民 数 
达到 2.98 亿 人 ， 互 联网 普及 率 达 22.6%。 宽带 网 民 规 模 达 到 2.7 亿 人 ， 
占 网 民 总 体 的 90.6%。 我 国 域名 总 数 达 到 16,826,198 个 ， 其 中 CN 域名 数 
量 达 到 13,572,326 个 ， 网 站 数 约 2,878,000 个 ， 国 际 出 口 带 宽 约 
640,286.67Mbps ° 截至 2009 年 ， 我 国共 完成 互联 网 基础 设施 建设 投资 
4.3 万 亿 元 ， 建 成 光缆 网 络 线路 总 长 度 达 826.7 万 公里 。 


截至 2010 年 5 月 ， 我 国 网 民 的 数量 已 经 达到 4.04 亿 之 多 ， 使 用 手机 
上 网 的 网 民 达 到 2.33 亿 人 ， 我 国 成 为 了 世界 上 首屈一指 的 互联 网 大 
。 目前， 我 国 99.1% 的 乡镇 和 92% 的 行政 村 接 通 了 互联 网 ，95.6% 的 
乡镇 接 通 了 宽带 ，3G 网 络 已 基本 和 履 盖 全 国 。2009 年 我 国电 子 商 务 交易 
总 额 突破 4 万 亿 元 。 互 联网 已 经 成 为 我 国 经 济 发 展 的 火车 头 。 


由 于 互联 网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 增加 得 越 来 越 多 ， 
英语 在 互联 网 上 独霸 天 下 的 局 面 已 经 彻底 打破 ， 互 联网 确实 已 经 变 成 
了 “多 语言 的 网 络 世 界 ”(multilingual Web) 。“ 多 语言 "这 个 特性 使 得 
互联 网 变 得 丰富 多 彩 ， 同 时 也 造成 了 不 同 语言 之 间 交 流 和 沟通 的 困 
难 ， 互 联网 上 的 语言 障碍 问题 显得 越 来 越 突出 ， 越 来 越 严重 。 因 此 ， 
网 络 上 的 不 同 自 然 语 言 之 间 的 计算 机 上 自动 处 理 也 残 变 得 越 来 越 迫切 
a o 


网 络 上 多 语言 的 机 需 翻 译 、 信 息 检 索 、 信 息 抽 取 正 在 迅 狐 地 发 
展 。 语 种 辨认 (language identification) 、 跨 语言 信息 检索 (cross- 
language information retrieval ) 、 双 语言 术语 对 齐 (bilingual 
terminology alignment) 和 语言 理解 助手 (comprehension aids) 等 自然 
语言 处 理 的 多 语言 在 线 处 理 技术 (multilingual on-line processing) 已 经 
成 为 了 互联 网 技术 和 语义 互联 网 的 重要 文 柱 。 


面 对 目 然 语言 处 理 这 些 新 发 展 ，14 年 前 出 版 的 《 目 然 语 言 的 计算 
机 处 理 》 一 书 的 内 容 就 显得 有 些 陈旧 了 。 


2000 年 ， 我 在 中 国 传媒 大 学 为 语言 信息 处 理 专业 的 硕士 生 开设 了 
《 目 然 语言 处 理 》 的 课程 ， 以 《 目 然 语 言 的 计算 机 处 理 》 作 为 主要 的 
教材 参考 ，2008 年 ， 我 义 在 中 国 传媒 大 学 用 英语 给 硕士 生 讲 授 上 自然 语 
言 处 理 (Natural Language Processing) 的 课程 ， 我 把 这 本 《自然 语言 
的 计算 机 处 理 》 全 部 翻译 成 天 文 ， 发 给 学 生 作为 讲义 ， 以 便 提 高 学 生 
们 阅读 英语 专业 文献 的 能 力 。 在 尔后 多 年 的 教学 过 程 中 ， 我 密切 注意 
国内 外 上 自然 语言 处 理 的 新 发 展 的 情况 ， 不 断 地 把 这 些 新 的 发 展 情况 写 
到 我 的 教材 中 ， 边 教 边 改 ， 删 除了 一 些 过 时 的 旧 内 容 ， 增 加 了 不 少 当 
代 的 新 内 容 ， 并 针对 教学 的 要 求 重新 调整 了 全 书 的 结构 ， 对 《有 目 然 语 
言 的 计算 机 处 理 》 的 中 文本 进行 了 较 大 幅度 的 增订 ， 形 成 了 一 部 内 容 
丰富 的 自然 语言 处 理 课程 的 中 文 讲 义 。 


这 部 中 文 讲义 在 学 习 目 然 语言 处 理 的 同学 中 传 布 ， 不 仅 中 国 传媒 
大 学 的 同学 们 争 相 传阅 ， 北 京 市 其 他 高 校 学 习 计算 语言 学 的 同学 们 也 
和 争 相 阅读 。 


2011 年 4 月 我 在 新 浪 网 站 上 开 了 文化 博客 
(www.blog.sina.com.cn/u/1926267847 ) ， 在 我 的 文化 博客 中 ， 我 也 介 


绍 了 这 部 中 文 讲义 的 部 分 内 容 。 


ETARA, Ame, AAR, Rae, AAA 
同学 们 一 致 的 好 评 。 


目前 ， 不 少 学 校 的 中 文系 、 外 语系 和 计算 机 系 都 开设 了 目 然 语言 
处 理 或 计算 语言 学 的 课程 ， 但 由 于 缺乏 适当 的 教材 ， 教 师 难 教 ， 学 生 
难 学 。 因 此 很 多 同学 都 建议 我 正式 出 版 这 个 痢 的 讲义 ， 以 满足 当前 的 
教学 急需 。 于 是 我 对 这 个 讲义 做 了 一 些 文 字 上 的 修饰 ， 增 加 了 很 多 新 
的 内 容 ， 更 名 为 《 目 然 语言 处 理 简 明教 程 》， 仍 然 由 上 海外 语 教 育 出 
版 社 出 版 。 


《 目 然 语言 处 理 位 明教 程 》 共 分 十 八 草 。 第 一 章 至 第 十 章 讲 日 然 
语言 处 理 的 基本 方法 ， 第 十 一 章 至 第 十 八 革 讲 目 然 语 言 处 理 的 应 用 。 
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第 一 章 讲 述 自然 语言 处 理 与 理论 语言 学 的 关系 ， 说 明 自然 语言 处 
理 对 语言 学 各 个 方面 的 深刻 影响 。 


第 二 章 讲 述 词 汇 目 动 处 理 ， 介 绍 了 正则 表达 式 、 最 小 编辑 距离 算 
法 ， 分 析 了 英语 中 的 词汇 靶 义 现象 ， 介 绍 了 几 种 重要 的 词义 排 玻 方 
法 。 


第 三 章 讲述 形态 目 动 处理 ， 以 有 限 状 态 转 移 网 络 为 工具 ， 说 明 黏 
着 型 语言 和 分 析 型 语言 的 形态 目 动 处 理 方法 ， 并 介绍 了 书面 汉语 的 目 
动 切 词 方 法 、 汉 语 和 英语 的 文本 目 动 标注 的 方法 、 基 于 统计 的 目 动 标 
注 方法 。 


第 四 章 讲述 句法 目 动 处理 ， 介 绍 了 递归 转移 网 络 和 扩充 转移 网 络 
为 工具 ， 并 以 短语 结构 语法 为 工具 ， 介 绍 了 目 邦 同上 剖析 法 、 目 顶 回 
下 剖析 法 、 左 角 齐 析 法 、CKY 算 法 。 

第 五 草 讲 述 结构 收 义 ,分 析 了 词汇 歧义 和 结构 歧义 ,介绍 了 “潜在 
卜 义 论 ”"， 分 析 了 科技 术语 和 日 肖 语 言 中 的 潜在 歧义 ， 并 介绍 了 卜 义 消 
解 的 方法 。 


第 六 草 讲 述 民 构 子 串 表 和 线 图 ， 介 绍 了 民 构 子 串 表 和 线 图 分 析 
iE 


第 七 章 讲述 复杂 特征 理论 以 及 合 一 运算 方法 ， 并 介绍 了 中 文 信息 
处 理 中 的 多 又 多 标记 树 模型 。 


第 八 章 讲述 语义 目 动 处 理 ， 介 绍 了 意义 的 形式 化 表示 方法 、 一 阶 
谓词 演算 、 句 法 碟 动 的 语义 分 析 、 浅 层 语义 分 析 、 义 素 分 析 法 、 语 义 
场 、 结 构 语义 学 。 

第 九 章 讲 述 马 尔 科 夫 链 和 隐 马 尔 可 夫 模 型 ， 介 绍 了 马尔 可 夫 链 、 
隐 马 尔 可 夫 模 型 、 辐 前 算法 、 韦 特 比 解码 算法 、 辐 前 同 后 算法 。 

第 十 章 讲述 语料库 语言 学 ， 介 绍 了 语料库 语言 学 的 兴起 、 建 立 和 
使 用 语料库 的 意义 ,分析 了 语料库 研究 中 的 一 些 原则 问题 ， 最 后 介绍 
历史 上 的 语料库 和 中 国 的 语料库 研究 。 


第 十 一 章 讲述 机 器 翻译 ， 介 绍 了 基于 规则 的 机 器 翻译 、 基 于 语 料 
库 的 机 器 翻译 、 口 语 机 器 翻译 、 翻 译 记忆 与 本 土 化 工具 。 


第 十 二 章 讲 述 信 息 目 动 检 索 ， 介 绍 了 信息 检索 的 一 般 原理 和 发 展 
现状 、 信 息 目 动 检索 与 目 然 语言 处 理 技术 、 语 种 辨认 与 跨 语 言 信息 检 
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第 十 三 草 讲述 信息 抽取 和 目 动 文摘 ， 介 绍 了 名 称 的 目 动 抽取 、 事 
件 的 自动 抽取 和 自动 文摘 技术 。 


第 十 四 章 讲述 文本 数据 挖掘 ， 介 绍 了 文本 数据 挖掘 的 特点 、 如 何 
从 文本 中 挖掘 语言 学 知识 、 如 何 从 文本 中 控 掘 非 语 言 学 知识 。 


第 十 五 章 讲述 目 然 语言 理解 、 目 动 问答 与 人 机 接口 ， 介 绍 了 目 然 
语言 理解 猎 究 的 发 展 、 汉 语 目 然 语言 理解 的 特点 和 困难 、 目 动 问答 系 
统 、 目 然 语言 人 机 接口 。 


第 十 六 章 讲述 目 然 语言 处 理 技术 在 术语 研究 中 的 应 用 ， 介 绍 术语 
数据 库 和 计算 术语 学 。 


第 十 七 草 讲 述 目 然 语言 处 理 技术 在 语言 教学 中 的 应 用 ， 介 绍 计算 
机 辅助 语言 教学 和 语言 测试 。 


第 十 八 革 讲述 语 首 合成 、 语 首 识 别 与 汉字 识别 。 


从 本 书 内 容 安排 可 以 看 出 ， 本 书 的 重点 是 目 然 语言 处 理 的 方法 与 
应 用 ， 而 不 是 理论 。 对 于 自然 语言 处 理 的 许多 理论 (如 广义 短语 结构 
语法 、 词 汇 功能 语法 、 功 能 合 一 语法 、 苑 畴 语法 、 花 搭 古 语法 、 优 选 
语义 学 、 框 架 语义 学 等 ) ， 仅 在 说 明 方 法 和 有 关 应 用 时 加 以 简要 的 介 
绍 ， 不 做 详尽 的 竹 述 ， 以 便 提 高 本 书 的 通俗 性 和 实用 性 。 本 书 在 论述 
时 尽量 做 到 简单 而 明确 ， 有 中 等 文化 程度 的 广大 读者 ， 阅 读本 书 将 不 
会 有 很 大 的 困难 。 


本 书 还 特别 注意 介绍 目 然 语 言 处 理 中 的 一 些 新 的 应 用 领域 ,把 原 
来 《 目 然 语言 的 计算 机 处 理 》 中 的 目 然 语言 处 理 系统 这 一 章 进 一 步 加 


以 扩充 ， 除 了 介绍 机 器 翻译 、 自然 语言 理解 、 语 音 识别 、 语 音 合成 、 
文字 识别 、 术 语 数 据 库 、 计 算 机 辅助 语言 教学 、 信 息 检索 等 自然 语言 
处 理 的 传统 应 用 领域 之 外 ， 还 介绍 了 信息 目 动 抽取 、 文 本 数据 控 据 、 
问答 系统 、 目 然 语言 人 机 接口 等 新 兴 的 应 用 领域 。 


本 书 特别 注意 介绍 目 然 语言 处 理 中 的 新 方法 ， 尽 可 能 深入 地 、 具 
体 地 描述 每 一 种 方法 的 技术 原理 ， 详 细 地 说 明 每 一 种 方法 的 操作 过 
程 。 对 于 目 然 语言 处 理 中 的 一 些 基础 性 的 理论 ， 请 读者 参阅 笔者 的 
《数理 语言 学 》、《 目 动 翻译 》、《 中 文 信息 处 理 与 汉语 人 研究 》、 
《现代 汉字 和 计算 机 》、《 语 言 与 数学 》、《 计 算 语 言 学 基础 》、 
《计算 语言 学 探索 》、《 机 器 翻译 研究 》、《 机 絮 翻 译 今昔 谈 》、 
《现代 术语 学 引 论 》、《 目 然 语言 处 理 的 形式 模型 》 等 著作 ， 本 书 不 
再 作 介绍 。 


笔者 在 写作 本 书 时 ， 还 尽量 考虑 到 不 同学 科 读 者 的 需要 ， 使 语言 
学 工作 者 可 以 从 中 了 解 计算 机 处 理 目 然 语言 有 关 技 术 ， 使 计算 机 工作 
者 可 以 从 中 了 解 现 代 语 言 学 的 有 关 知 识 。 和 硕 望 本 书 的 出 版 ， 对 于 语言 
学 工作 者 和 计算 机 工作 者 在 目 然 语言 处 理 这 个 学 科 中 的 进一步 合作 ， 
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当然 ， 本 书 的 写作 也 参考 过 国内 时 贤 的 论文 和 著作 多 种 。 如 果 没 
有 国内 外 学 者 的 出 色 工 作 和 宝贵 的 研究 成 果 ， 本 书 是 写 不 出 来 的 。 本 
书 在 每 章 末 均 列 出 有 关 的 参考 文献 ， 在 本 书 出 版 之 际 ， 谨 向 他 们 表示 
衷心 的 感谢 。 


在 本 书写 作 过 程 中 ， 笔 者 党 为 目 己 的 学 识 不 足 而 知 恼 ， 目 然 语言 
处 理 作 为 一 门 区 叉 性 边缘 性 学 科 ， 涉 及 文科 、 理 科 、 工 科 各 个 领域 的 


知识 ， 笔 者 学 识 浅 陋 ， 总 有 绠 短 汲 深 之 感 。 论 述 之 中 ， 倘 有 不 当 ， 朋 
请 海内 外 读者 批评 指正 。 


冯 志 伟 于 杭州 下 沙 
2012 年 7 月 


参考 文献 


Leese: 《自然 语言 的 计算 机 处 理 》， 上 海外 语 教 育 出 版 
社 ，1996 年 。 


2. BPE: 《计算 语言 学 基础 》， 商 务 印 书馆 ，2001 年 。 


3. Geese: 《 目 然 语言 处 理 的 形式 模型 》， 中 国 科 学 技术 大 学 
出 版 社 ，2009 年 。 


4. R. Mitkov 主 编 ，Oxford Handbook of Computational Linguistics, 
外 语 教学 与 研究 出 版 社 、 和 牛津 大 学 出 版 社 ，2009 年 。 


5. B. Partee 等 Mathematical Methods in Linguistics, ， 世 界 图 书 出 
版 公司 ，2009 年 。 
[1] A. Fodor, Representations , MIT Press, 1980. 


[2] J. R. Searle, Minds, Brains and Programmes, Behavioral and Brain 
Sciences , 1980, Vol. 3. 


[3] 黎 锦 牛 ， 新 半 国 语文 法 ， 商 务 印 书馆 ，1924 年 。 


[4] EA, EAMR RIVE DOR fe ^ GTR: 山东 教育 出 版 社 ， 
1988 年 。 王 力 指出 , “所 谓 区 别 一 般 与 特殊 ， 那 是 辩证 法 的 原理 之 一 。 
在 这 里 我 们 指 的 古 黎 饥 巾 先生 所 谓 ‘ 例 不 十 ， 不 立法 '。 我 们 还 要 补充 
一 句 ， 就 是 “例外 不 十 ， 法 不 破 '。” 


第 一 章  HNIB Pm 理论 语言 


采用 计算 机 技术 来 研究 和 处 理 目 然 语 言 是 20 世 纪 50 年 代 才 开始 
的 ，50 多 年 来 ， 这 项 研究 取得 了 长 足 的 进展 ， 形 成 了 “ 目 然 语 言 处 
理 ” 这 门 重要 的 新 兴学 科 。 在 这 一 章 中 ， 我 们 将 说 明 目 然 语言 处 理 在 语 
言 学 以 及 现代 科学 体系 中 的 地 位 及 其 对 语言 研究 各 个 方面 的 深刻 影 
啊 。 


我 们 认为 ， 计 算 机 对 自然 语言 的 研究 和 处 理 ， 一 般 应 经 过 如 下 四 
个 方面 的 过 程 : 

第 一 ， 把 需要 人 研究 的 问题 在 语言 学 上 加 以 形式 化 ， 建 立 语言 的 形 
式 化 模型 ， 使 之 能 以 一 定 的 数学 形式 ， 斑 密 而 规整 地 表示 出 来 ， 这 个 
过 程 可 以 叫做 “形式 化 ”: 

第 二 ， 把 这 种 严密 而 规整 的 数学 形式 表示 为 算法 ， 这 个 过 程 可 以 
叫做 “算法 化 ”; 


第 三 ， 根 据 算法 编写 计算 机 程序 ， 使 之 在 计算 机 上 加 以 实现 ， 建 
立 各 种 实用 的 目 然 语言 处 理 系统 ， 这 个 过 程 可 以 叫做 “程序 化 ”: 


第 四 ， 对 于 所 建立 的 自然 语言 处 理 系统 进行 评测 ， 使 之 不 断 地 改 
进 质量 和 性 能 ， 以 满足 用 户 的 有 要求 ， 这 个 过 程 可 以 叫做 “实用 化 ”。 


因此 ， 为 了 研究 自然 语言 处 理 ， 我 们 不 仅 要 有 语言 学 方面 的 知 
识 ， 还 要 有 数学 和 计算 机 科学 方面 的 知识 ， 这 样 目 然 语言 处 理 束 成 为 
了 一 门 界 乎 语言 学 、 数 学 和 计算 机 科学 之 间 的 边缘 性 的 交叉 学 科 ， 它 
同时 涉及 文科 、 理 科 和 工科 三 大 领域 。 


早 在 计算 机 出 现 以 前 ， 甘 国 数学 家 图 灵 (A.M. Turing) 就 预见 到 
未 来 的 计算 机 将 会 对 目 然 语 言 猎 究 提 出 狐 的 问题 。 


他 在 《机 器 能 思维 吗 》 一 文中 指出 : “我们 可 以 期 每 ， 总 有 一 天 机 
亏 会 同人 在 一 切 的 智能 领域 里 竞争 起 来 。 但 是 ， 以 哪 一 点 作为 竞争 的 
出 发 点 昵 ? 这 征 一 个 很 难 决定 的 问题 。 许 多 人 以 为 可 以 把 下 棋 之 类 的 
极为 抽象 的 活动 作为 最 好 的 出 发 尽 ， 不 过 ， 我 更 倾 同 于 支持 男 一 种 主 
张 ， 这 种 主张 认为 ， 最 好 的 出 发 总 是 制造 出 一 种 具有 智能 的 、 可 用 钱 
买 到 的 机 妖 ， 然 后 ， 教 这 种 机 器 理解 英语 并 且说 英语 。 这 个 过 程 可 以 
仿效 小 孩子 说 话 的 那 种 办 法 来 进行 。” (Turing, 1950) 


图 灵 提 出 ， 检 验 计算 机 智能 高 低 的 最 好 办 法 是 让 计算 机 来 讲 英 语 
和 理解 英语 ， 他 天 才 地 预见 到 计算 机 和 自然 语言 将 会 结 下 不 解 之 毕 ， 
他 设计 了 如 图 1.1 所 示 的 图 灵 测 试 (Turing test) 。 


询问 者 


图 1.1 图 灵 测 试 


在 图 灵 测 试 中 ， 图 灵 采 用 “ 问 ” 与 “ 管 ” 模 式 ， 即 观察 者 通过 控制 打 
字 机 回 两 个 测试 对 象 通话 ， 其 中 一 个 是 人 ， 另 一 个 是 机 万 。 要 求 观 察 
者 不 断 提 出 各 种 问题 ， 从 而 辨别 回答 者 是 人 还 是 机 器 。 


图 灵 还 为 这 项 测试 杀 目 拟定 了 几 个 示范 性 问题 : 


H: 请 给 我 写 出 有 关 “ 第 四 号 桥 ” 主 题 的 十 四 行 诗 。 

答 : 不 要 问 我 这 道 题 ， 我 从 来 不 会 写 诗 。 

问 : 34957 加 70764 等 于 多 少 ? 

答 : ( 停 30 秒 后 ) 105721 

[E]: 你 会 下 国际 象棋 吗 ? 

答 : 是 的 i 

H: 我 在 我 的 K1 处 有 棋子 K;， 你 仅 在 K6 处 有 棋子 K， 在 R1 处 


有 棋子 R。 现 在 轮 到 你 走 ， 你 应 该 下 那 步 棋 ? 


paa 


Mm: 


( 停 15 秒 钟 后 ) 棋子 R 走 到 R8 处 ， 将 军 ! 


图 灵 指 出 : “如 果 机 需 在 某 些 现实 的 条 件 下 ， 能 够 非常 好 地 模仿 人 
回答 问题 ， 以 至 提问 者 在 相当 长 时 间 里 误 认 它 不 是 机 絮 ， 那 么 机 右 整 
可 以 被 认为 是 能 够 思维 的 。” (Turing, 1950) 


从 表面 上 看 ， 要 使 机 如 回答 按 一 定 范 围 提 出 的 问题 似乎 没有 什么 
困难 ， 可 以 通过 编制 特殊 的 程序 来 实现 。 然 而 ， 如 末 提 问 者 并 不 遵循 
常规 标准 ， 编 制 回答 的 程序 是 极其 困难 的 事情 。 例 如 ， 拓 问 与 回答 呈 
现 出 下 列 状况 : 


你 会 下 国际 象棋 吗 ? 


: 是 的 。 


你 会 下 国际 象棋 吗 ? 


: 是 的 。 
: 请 再 次 回答 ， 你 会 下 国际 象棋 吗 ? 
: 是 的 。 


你 多 半 会 想到 ， 面 前 的 这 位 是 一 部 笨 机 器 。 


如 果 提 问 与 回答 呈现 出 男 一 种 状态 : 


fa]: 


BA 


ABZ , 


在 于 ， 第 


你 会 下 国际 象棋 吗 ? 


a: EH 
[R]: 


2X. 


[H]: 


你 会 下 国际 象棋 吗 ? 

是 的 ， 我 不 是 已 经 说 过 了 吗 ? 

请 再 次 回答 ， 你 会 下 国际 象棋 吗 ? 
你 烦 不 烦 ， 干 嘛 老 提 同样 的 问题 。 


你 面前 的 这 位 大 概 古 人 而 不 是 机 絮 。 上 述 两 种 对 话 的 区 别 


一 种 可 明显 地 感到 回答 者 是 从 知识 库 里 提取 人 简单 的 答案 ， 第 


二 种 则 具有 分 析 绿 合 的 能 力 ， 回 答 者 知道 观察 者 在 反复 提出 同样 的 问 
题 。“ 图 灵 测 弃 ? 没 有 规定 问题 的 范围 和 提问 的 标准 ， 如 果 想 要 制造 出 
能 通过 试验 的 机 器 ， 以 我 们 现在 的 技术 水 平 ， 必 须 在 电脑 中 储存 人 类 
所 有 可 以 想到 的 问题 ， 储 存 对 这 些 问题 的 所 有 合乎 第 理 的 回答 ， 并 且 
需要 理智 地 作出 选择 。 


图 灵 预 言 ， 大 约 到 20 世 纪 末 叶 ， 具 有 10GB 存 贮 量 的 计算 机 经 过 5 
分 钟 的 提问 之 后 ， 将 会 有 30% 的 机 会 使 提问 者 感到 困惑 ， 辩 不 清 回答 
问题 的 是 人 还 是 计算 机 。 如 果 你 也 总 是 像 计 算 机 那样 地 去 媚 弄 别人 ， 
你 也 可 能 说 不 清楚 究竟 采用 什么 样 的 严格 标准 去 愚弄 ， 才 可 以 使 别人 
感到 困惑 。 然 而 ， 对 于 图 灵 来 说 ， 关 键 的 问题 是 ， 只 要 使 用 人 的 语言 
就 足以 作为 测定 计算 机 是 否 有 智能 的 可 操作 标准 了 。 


令 人 惊讶 的 是 ， 在 1966 年 ， REM EZ £4 He (JI. 
Weizenbaum) 就 设计 了 一 个 叫做 ELIZA 的 程序 来 验证 图 灵 的 思想 
(Weizenbaum, 1966) 。 


ELIZA 是 一 个 早期 的 目 然 语 言 处 理 系 统 ， 这 个 系统 能 与 用 户 进行 
有 一 定 限制 的 对 话 。 下 面 是 ELIZA 系 统 模 拟 心理 医生 的 一 段 对 话 : 


FA: You are like my father in some way. (你 在 某 些 方面 很 像 
我 的 父亲 。) 

ELIZA: WHAT RESEMBLANCE DO YOU SEE (你 看 是 哪些 
方面 像 呢 ? ) 

用 户 : You are not very aggressive but I think you don't want me 
to notice that. (你 不 是 一 个 非常 坚持 自 见 的 人 ， 可 是 你 不 愿意 我 提 
起 这 一 点 。) 


ELIZA : WHAT MAKES YOU THINK I AM NOT 
AGGRESSIVE 《你 赁 什么 说 我 不 是 一 个 非常 坚持 自 见 的 人 ? ) 

FAP: You don't argue with me. (因为 你 不 想 和 我 争论 。) 

ELIZA: WHY DO YOU THINK I DON'T ARGUE WITH YOU 

(为 什么 你 认为 我 不 想 和 你 争论 呢 ? ) 

FAR: You are afraid of me. (因为 你 怕 我 。) 

ELIZA: DOES IT PLEASE YOU TO BELIEVE I AM AFRAID 
OF YOU (和 任 什 么 使 得 你 认为 我 怕 你 ? ) 


显而易见 ，ELIZA 只 是 使 用 模式 匹配 的 方法 来 处 理 输入 并 且 把 它 
转换 成 适当 的 输出 ， 这 征 一 个 非常 简单 的 系统 。 事 实 上 ELIZA 并 没有 
必要 懂得 如 何 去 模 拟 心理 医生 ， 它 只 是 使 用 简单 的 模式 匹配 束 取 得 了 
成 功 。 正 如 系统 的 设计 人 魏 穿 鲍 姆 所 说 的 ， 在 ELIZA 系 统 中 ， 听 话 者 
的 所 作 所 为 就 好 像 他 们 对 于 周围 的 世界 一 无 所 知 。 


ELIZA 与 图 灵 思 想 的 深刻 联系 在 于 ， 很 多 与 ELIZA 进 行 过 交互 的 
人 都 相信 ，ELIZA 确 实 理 解 了 他 们 所 说 的 话 以 及 他 们 所 提出 的 问题 。 
魏 岭 鲍 姆 在 1976 年 指出 ， 甚 至 在 把 程序 的 操作 过 程 向 人 们 作 了 解释 之 
后 ， 仍 然 有 不 少 的 人 继续 相信 ELIZA 的 能 


近年 来 ， 人 们 又 以 不 同 的 形式 重复 着 瑶 专 鲍 姆 的 工作 。 目 1991 年 
IÆ, EFWE (Loebner prize) 的 比赛 中 ， 人 们 试图 设计 各 种 计 
算 机 程序 来 做 图 灵 测 试 。 尽 管 这 些 比赛 的 科学 意义 不 是 很 大 ， 不 过 ， 
这 些 比赛 的 成 绩 说 明 ， 哪 人 是 很 粗糙 的 程序 ， 有 时 也 会 电 弄 人 们 的 判 
呆 力 。 哲 学 家 和 人 工 智能 研究 者 对 于 图 灵 测 试 究 竟 是 否 适 合用 来 测试 
智能 的 争论 已 经 持续 很 多 年 了 ， 人 但是， 上述 比赛 的 结果 ， 并 没有 和 平 县 
这 样 的 争论 。 


不 过 ， 这 样 的 比赛 结果 与 计算 机 究竟 能 否 思维 ， 或 者 计算 机 究竟 
能 否 理解 目 然 语 言 的 问题 是 风 马 牛 不 相 及 的 。 更 为 重要 的 是 ， 在 社会 
科学 中 的 有 关 人 研究 证 实 了 图 灵 在 同一 篇 文章 中 的 预见 (Turing, 
1950) : 


然而 ， 我 相信 ， 在 本 世纪 的 末 叶 ， 词 语 的 使 用 和 教育 的 与 论 
将 大 为 改观 ， 使 我 们 有 可 能 谈论 机 器 思维 而 不 致 遭 到 别人 的 反 
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现在 已 经 清楚 ， 不 管 人 们 相信 什么 ， 不管 人 们 是 否 已 经 知道 了 计 
算 机 的 内 部 工作 情况 ， 他 们 都 在 谈论 计算 机 ， 并 且 都 在 与 计算 机 进行 
着 交互 ， 把 计算 机 当 作 一 个 社会 实体 。 人 们 把 计算 机 当 作 人 一 样 地 对 
每 ， 他 们 要 对 它 讲 礼貌 ， 他 们 把 它 当 作 团队 中 的 成 员 ， 并 且 期 望 计算 
机 能 够 理解 人 们 的 需求 ， 能 够 非常 目 然 地 与 人 们 进行 交互 。 


flan, EHET (Reeves) 和 纳 斯 (Nass) 发 现 ， 当 计算 机 要 求人 
们 来 评价 计算 机 的 所 作 所 为 好 不 好 的 时 候 ， 人 们 要 针对 不 同 计 算 机 提 
出 的 同样 的 问题 做 出 更 多 的 正面 的 回答 。 人 们 似乎 担心 他 们 给 计算 机 
的 回答 不 够 礼 狐 。 尼 弗 斯 和 纳 斯 在 另外 的 实验 中 还 发 现 ， 如 果 计 算 机 
对 人 们 说 一 些 奉 承 的 话 ， 人 和 人们 给 计算 机 的 评价 也 就 会 高 一 些 。 给 出 这 
样 的 一 些 预 设 ， 使 用 自然 语言 处 理 系统 就 能 够 给 众多 的 用 户 在 很 多 应 
用 方面 提供 更 加 自然 的 交互 界面 。 这 些 导 致 了 一 个 称 为 会 话 代理 
(conversational agents) 的 研究 焦点 ， 所 谓 会 话 代理 就 是 通过 会 话 进 
行 交 际 的 计算 机 人 造 实体 ， 会 话 代理 的 研究 将 会 持续 很 长 的 时 间 。 


2011 年 北京 时 间 2 月 17 日 上 午 ， 在 美国 家 喻 户 晓 的 电视 智力 问答 竞 
TA CES) (Jeopardy) 中 ，IBM 超 级 计算 机 系统 沃 森 


(WATSON) 战胜 了 该 节目 有 史 以 来 最 优秀 的 两 位 人 类 冠军 肯 
(Ken) 和 布 拉 德 (Brad) ， 圆 满 结束 了 历时 三 天 的 人 机 大 战 。 


沃 森 是 20 多 名 IBM 公 司 研究 人 员 4 年 心血 的 结晶 ， 正 是 他 们 突破 性 
地 给 予 了 沃 森 理解 目 然 语言 和 精确 回答 问题 的 能 力 ， 才 将 人 工 状 能 推 
回 新 的 阶段 。 


图 灵 奖 获得 者 、 斯 坦 福 大 学 人 工 智能 专家 费 根 鲍 姆 (Edward 
Feigenbaum) 曾经 说 过 : “在 20 年 前 ， 可 能 所 有 人 都 会 认为 机 器 在 智力 
问答 中 战胜 人 类 是 不 可 能 的 。” 沃 森 的 胜利 使 “机 器 在 智力 问答 中 战胜 
人 类 ” 变 成 了 现实 ! 


《危险 边缘 》 克 目 中 的 智力 问答 ， 要 求 计算 机 必须 理解 人 类 的 语 
言 。 人 类 语言 是 完全 开放 式 的， 往往 模 校 两 可 ， 需 要 上 下 文才 能 理解 
其 意 轧 。 虽 然 IBM 公 司 的 研究 人 员 可 以 轻松 理解 人 类 语言 ， 但 开发 理 
解 人 类 语言 的 超级 计算 机 系统 却 极 具 挑 战 性 。 


尽管 存储 了 大 量 的 百科 全 书 和 其 他 信息 ， 但 《危险 边缘 》 的 问题 
并 不 会 让 沃 森 轻易 地 找到 答案 ， 因 为 寻找 答案 从 来 不 是 计算 机 的 强 
项 。 搜 索引 擎 没 法 回答 问题 ， 只 能 给 出 符合 搜索 关键 词 的 成 王 上 万 个 
似是而非 的 可 能 答案 ， 而 沃 森 要 通过 各 种 不 同 的 算法 ， 对 所 有 的 候选 
答案 取得 更 多 的 证 据 文 择 ， 再 根据 证 据 的 强度 对 每 个 候选 答案 给 出 其 
置信 度 ， 最 后 根据 置信 度 来 决定 是 否 癌 用 户 提 供 置 信 度 最 高 的 唯一 答 
案 。 这 一 过 程 是 极其 复 洒 的 ， 因 此 需要 动用 几 干 个 处 理 器 的 超级 计算 
机 来 处 理 一 个 问题 。 沃 森 需 要 掌握 大 量 的 知识 ， 并 在 相关 和 不 相关 的 
言 妃 中 发 现 线索 。 对 计算 机 来 说 ， 这 有 是 一 个 巨大 的 挑战 。 人 类 可 以 在 
瞬间 辨别 出 事物 之 间 的 联系 ， 但 是 计算 机 却 必须 并 行 地 考虑 所 有 事 
情 ， 从 而 得 出 结论 。 


2011 年 2 月 的 人 机 大 战 ， 沃 森 胜利 了 。 这 意味 着 IBM 公 司 掌握 了 对 
人 类 信息 需求 和 问题 给 予 更 准确 响应 的 技术 能 力 ， 并 预见 到 了 这 个 领 
域 存 在 巨大 商机 。 这 项 成 果 还 将 被 广泛 应 用 于 多 个 领域 ， 例 如 更 快 、 
更 准确 地 进行 医疗 诊断 ， 研 究 潜在 的 药物 交互 作用 ， 帮 助 律 师 和 法 官 
寻找 案例 ， 在 金融 领域 实现 “假设 ”场景 分 析 ， 帮 助 公司 培养 更 精明 的 
销售 人 员 ..…. 沃 森 的 出 现 ， 颠 履 了 此 前 简单 的 人 机 关系 ， 并 将 带 来 一 
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乔 姆 斯 基 在 计算 机 出 现 的 初期 把 计算 机 程序 设计 语言 与 目 然 语言 
置 于 相同 的 平面 上 ， 用 统一 的 观 总 进行 研究 和 解说 。 


他 在 《自然 语言 形式 分 析 导 论 》 一 文中 ， 从 数学 的 角度 给 语言 提 
出 了 新 的 定义 ， 指 出 : “这 个 定义 既 适 用 于 自然 语言 ， 又 适用 于 逮 辑 和 
计算 机 程序 设计 理论 中 的 人 造 语言 "由 。 


在 《语法 的 形式 特性 》 一 文中 ， 他 专门 用 了 一 节 的 篇 幅 来 论述 程 
序 设计 语言 ， 讨 论 了 有 关 程 序 设计 语言 的 编译 程序 问题 ， 这 些 问题 ， 
是 作为 “组 成 成 分 结构 的 语法 的 形式 研究 ”外 ， 从 数学 的 角度 提出 来 ， 
并 从 计算 机 科学 理论 的 角度 来 探讨 的 。 


他 在 《上 下 文 无 关 语 言 的 代数 理论 》 一 文中 提出 : “我 们 这 里 要 考 
虚 的 是 各 种 生成 句子 的 狠 置 ， 它 们 又 以 各 种 各 样 的 方式 ， 同 目 然 语言 
的 语法 和 各 种 人 造 语言 的 语法 二 者 都 有 着 密切 的 联系 。 我 们 将 把 语言 
直接 地 看 成 在 符号 的 某 一 有 限 集合 V 中 的 符号 串 的 集合 ， 而 V 就 叫做 该 
语言 的 词汇 .……， 我 们 把 语法 看 成 是 对 程序 设计 语言 的 详细 说 明 ， 而 
把 符号 串 看 成 是 程序 。” 呈 | 


在 这 里 乔 姆 斯 基 把 目 然 语言 和 程序 设计 语言 放 在 同一 平面 上 ， 从 
数学 和 计算 机 科学 的 角度 ， 用 统一 的 观点 来 加 以 考察 ， 对 “语言 ”`\“ 词 
汇 ” 等 语言 学 中 的 基本 概念 ， 获 得 了 高 度 抽 象 化 的 认识 。 


图 灵 和 乔 姆 斯 基 都 是 当代 第 一 流 的 学 者 。 图 灵 有 是 现代 计算 机 科学 
理论 的 芮 基 人 ， 而 乔 姆 斯 基 则 年 转换 生成 语法 学 派 的 葛 基 人 “。 他 们 以 
学 术 大 师 特有 的 远见 卓识 ， 指 出 了 计算 机 与 自然 语言 的 密切 联系 ， 他 
们 的 思想 成 为 了 日 后 自然 语言 处 理 取 之 不 尽 的 源泉 。 


目 然 语 言 处 理 的 出 现 ， 使 得 语言 学 在 现代 科学 体系 中 的 地 位 有 了 
明显 的 变化 ， 使 语言 学 由 一 门 基础 科学 变 成 了 市 头 科学 ， 获 得 了 与 数 
学 、 哲 学 同等 的 地 位 ， 语 言 学 将 成 为 人 文科 学 发 展 的 突破 点 和 生长 
点 ， 它 的 重要 意义 已 经 为 越 来 越 多 的 人 所 认识 。 


自然 语言 处 理 的 研究 首先 是 从 机 器 翻译 (Machine Translation, f 
称 MT) 开始 的 。1946 年 电子 计算 机 刚 一 问世 ， 人 们 在 把 计算 机 广泛 地 
应 用 于 数值 运算 的 同时 ， 也 想到 了 利用 计算 机 把 一 种 或 几 种 语言 翻译 
成 另外 一 种 或 几 种 语言 。 从 20 世 纪 50 年 代 初 期 到 60 年 代 中 期 ， 机 属 翻 
译 一 直 是 目 然 语 言 处 理 研 究 的 中 心 课 题 ， 当 时 采用 的 主要 是 “ 词 对 
词 * 翻 译 方式 ， 这 种 不 是 建立 在 对 上 自然 语言 理解 的 基础 上 的 简单 技术 ， 
没有 得 到 预期 的 翻译 效果 。 


20 世 纪 60 年 代 中 期 ， 人 们 开始 转 入 对 目 然 语言 的 语法 、 语 义 和 语 
用 等 基本 问题 的 研究 ， 并 尝试 着 让 计算 机 来 理解 自然 语言 。 许 多 学 者 
认为 ， 断 定 计算 机 有 是否 理解 了 目 然 语 言 的 最 直观 的 方法 ， 束 是 让 人 们 
同 计算 机 对 话 ， 如 果 计 算 机 对 人 用 目 然 语言 提出 的 问题 能 作出 回答 ， 
忠 证 明 计 算 机 已 经 理解 了 目 然 语言 ， 这 样 ， 殊 出 现 了 “人 机 对 


话 ”( 或 “自然 语言 理解 ”) 的 研究 。 和 上 自然 语言 处 理 的 理论 和 方法 也 就 在 
这 些 具体 的 研究 中 逐渐 形成 、 成 熟 并 完善 起 来 。 


目前 ， 除 了 机 器 翻译 和 自然 语言 理解 之 外 ， 自 然 语言 处 理 的 研究 
领域 还 扩展 到 了 上 自然 语言 人 机 接口 、 信 息 自 动 检索 、 信 息 自 动 抽 取 、 
文本 数据 挖掘 、 文 本 目 动 分 类 、 目 动 文摘 、 命 名 实体 识别 、 术 语 数 据 
库 、 语 料 库 、 计 算 机 辅助 教学 、 语 音 目 动 识 别 与 合成 、 文 字 目 动 识 
别 、 言 语 统计 、 词 典 编 党 、 风 格 学 研究 等 领域 。 目 然 语言 处 理 已 经 成 
为 现代 科学 扩 术 的 一 个 研究 热点 。 


自然 语言 处 理 的 研究 与 计算 语言 学 (computational Linguistics, 
简称 CL) 的 研究 是 密 不 可 分 的 。 计 算 语 言 学 可 以 看 成 是 自然 语言 处 理 
的 同义词 ， 当 我 们 主要 涉及 方法 的 时 候 ， 用 “上 自然 语言 处 理 * 这 个 术 
语 ， 当 我 们 主要 涉及 理论 的 时 候 ， 用 “计算 语言 学 ”这 个 术语 。 因 此 ， 
在 我 们 讨论 自然 语言 处 理 的 各 种 问题 时 ， 也 不 可 避免 地 会 讨论 到 计算 


语言 学 的 问题 ， 用 到 计算 语言 学 这 个 术语 - 


1952 年 ， 在 美国 的 太 省 理工 学 院 召 开 了 第 一 次 机 器 翻译 会 议 ， 在 
1954 年 ， 出 版 了 第 一 本 机 絮 翻 译 的 杂志 ， 这 个 杂志 的 名 称 就 叫做 
Machine Translation (《 机 器 翻译 》) 。 尽 管 人 们 在 自然 语言 的 计算 
方面 进行 了 很 多 的 研究 工作 ， 但是， 直到 20 世 纪 60 年 代 中 期 ， 才 出 现 
T Computational Linguistics (计算 语言 学 ) 这 个 术语 ， 而 且 这 个 术语 
是 偷偷 摸 措 地 、 羞 羞涩 滁 地 出 现 的 。 


1965 4 Machine Translation Z& x5 PX 4Z 7j Machine Translation and 
Computational Linguistics (《 机 器 翻译 和 计算 语言 学 》) Tu. TEAR 
志 的 封面 上 ， 首 次 出 现 了 “Computational Linguistics” 这 样 的 字眼 ， 但 


是 , “and Computational Linguistics” 这 三 个 单词 是 用 特别 小 号 的 字母 排 
印 的 。 


这 说 明 ， 这 个 刊物 的 编者 对 于 “计算 语言 学 ”是 否 能 够 算 为 一 门 真 
正 的 独立 的 学 科 还 没有 把 握 。 计 算 语言 学 刚刚 登 上 学 术 这 个 庄严 的 殿 
HAA, PAST aR OR, SEER ae Az 
以 至 于 刊物 的 编者 不 敢 用 和 Machine Translation 同 样 大 小 的 字母 来 排 印 
它 。 当 时 Machine Translation 杂志 之 所 以 改名 ， 是 因为 在 1962 年 美国 
成 立 了 “机 器 翻译 和 计算 语言 学 学 会 ” (Association for Machine 
Translation and Computational Linguistics) ， 通 过 改名 可 以 使 杂志 的 名 
称 与 学 会 的 名 称 保持 一 致 。 


1964 年 ， 美 国 科 学 院 成 立 了 语言 自动 处 理 咨询 委员 会 (Automatic 
Language Processing Advisory Committee， 人 简称 ALPAC 委 员 会 ) ， 调 查 
机 器 翻译 的 研究 情况 ， 并 于 1966 年 11 月 公布 了 一 个 题 为 《语言 与 机 
器 》 的 报告 ， 简 称 ALPAC 报 告 四 。 这 个 报告 对 机 器 翻译 采取 了 否定 的 
人 态度， 报告 宣称 : “目前 尚 无 理由 大 力 文 持 机 需 翻 译 。”; 这 个 报告 还 
指出 ， 机 器 翻译 研究 遇 到 了 难以 克服 的 “语义 障碍 ”(〈semantic 
barrier) 。 在 ALPAC 报 告 的 影响 下 ， 许 多 国家 的 机 器 翻译 研究 遭遇 低 
潮 ， 许 多 已 经 建立 起 来 的 机 器 翻译 研究 单位 遇 到 了 行政 上 和 经 费 上 的 
困难 ， 在 世界 范围 内 ， 机 妖 翻 译 的 热潮 突然 消失 了 ， 出 现 了 空前 北条 
的 局 面 。 


美国 语言 学 家 海 斯 (David Hays) 是 ALPAC 委 员 会 的 成 员 之 一 ， 
并 且 参 与 起 草 了 ALPAC 报 告 ， 他 在 报告 中 建议 ， 在 放弃 机 器 翻译 这 个 
短期 的 工程 项 目的 时 候 ， 应 当 加 强 语言 和 自然 语言 计算 机 处 理 的 基础 
研究 ， 可 以 把 原来 用 于 机 器 翻译 研制 的 经 费 使 用 到 自然 语言 处 理 的 基 


础 研究 方面 。 海 斯 把 这 样 的 基础 研究 正式 命名 为 Computational 
Linguistics (计算 语言 学 。 所 以 ， 我 们 可 以 说 , “计算 语 言 学 "这 个 学 
科 名 称 最 早出 现 于 1962 年 ， 而 1966 年 才 在 美国 科学 院 的 ALPAC 报 告 中 
正式 得 到 学 术 界 的 承认 。 


1962 年 美国 成 立 了 “机 器 翻译 与 计算 语言 学 学 会 “>， 每 年 开 一 次 会 
议 。1965 年 在 美国 纽约 成 立 了 国际 计算 语言 学 委员 会 (International 
Committee of Computational Linguistics ， 简 称 ICCL) ， 每 两 年 召开 一 
次 国际 会 议 ， 叫 做 COLING ，COLING 第 一 任 主席 是 沃 古 瓦 ， 他 是 法 
国 著名 数学 家 ， 担 任 法 国 格 勒 诺 布尔 大 学 应 用 数学 研究 所 目 动 翻译 中 
心 (CETA) 主任 。 与 此 同时 ， 美 国 出 版 了 学 术 季 刊 《 美 国 计 算 语言 学 
杂志 》 (American Journal of Computational Linguistics ) ， 后 改名 为 
《国际 计算 语言 学 杂志 》 (International Journal of Computational 
Linguistics) 。COLING 现 任 主席 是 斯 坦 福 大 学 教授 马丁 - 凯 依 (Martin 
Kay) 


COLING 现 已 召开 了 二 十 二 届 。 各 届 的 时 间 地 点 如 下 : 


e 1965 New York 

e 1967 Grenoble 

e 1969 Stockholm 

e 1971 Debrecen 

e 1973 Pisa 

e 1976 Ottawa 

e 1978 Bergen 

e 1980 Tokyo 

e 1982 Prague (中 国学 者 冯 志 伟 首次 参加 COLING) 
。 1984 Stanford 


e 1986 Bonn 

e 1988 Budapest 

e 1990 Helsinki 

e 1992 Nantes 

e 1994 Kyoto 

e 1996 Copenhagen 
e 1998 Montréal 

e 2000 Saarbruecken 
e 2002 Taipei 

e 2004 Geneva 

e 2006 Sydney 

e 2008 Manchester 
e 2010 Beijing 


我 国学 者 从 1982 年 起 就 参加 了 COLING 的 活动 ， 首 次 参加 的 中 
学 者 是 本 书 作 者 。 本 书 作者 在 该 会 议 上 用 法 文 发 表 论 文 MEmoire pour 


une tentative de traduction automatique multilangue de chinois en francais, 


anglais, japonais, russe et allemand [3] ° 


近年 来 ， 我 国 的 自然 语言 处 理 研究 很 活跃 ，1983 年 5 月 由 中 国 中 文 
言 筷 学 会 组 建 了 自然 语言 处 理 专业 委员 会 ， 该 专业 委员 会 主要 研究 机 
器 翻译 。 中 国 中 文 信息 学 会 又 于 1987 年 6 月 组 建 了 计算 语言 学 专业 委员 
会 ， 接 着 ， 于 1988 年 6 月 召开 了 首届 计算 语言 学 学 术 会 议 ，1993 年 11 月 
召开 了 第 二 届 计 算 语言 学 联合 学 术 会 议 ， 以 后 每 两 年 召开 一 次 。 我 国 
的 台湾 地 区 也 于 1990 年 4 月 成 立 了 台湾 计算 语言 学 学 会 。2010 年 第 23 届 
COLING 在 北京 有 召开， 来自 世界 各 地 的 近 700 位 计算 语言 学 研究 人 员 参 


加 了 这 个 盛会 ， 大 大 地 推动 了 我 国 的 计算 语言 学 和 目 然 语言 处 理 研究 
的 发 展 。 


自然 语言 处 理 不 仅 有 着 重大 的 学 术 意义 ， 而 且 ， 它 对 社会 经 济 的 
发 展 也 有 着 现实 的 或 潜在 的 经 济 价值 。 当 前 ， 许 多 国家 对 自然 语言 处 
理 更 加 重视 ， 纷 纷 投 资 。 仅 以 机 器 翻译 为 例 ，20 世 纪 末 期 ， 欧 洲 共 同 
体 为 了 把 EUROTRAN 多 语言 机 器 翻译 系统 实用 化 ，5 年 内 投资 2800 万 
美元 。 法 国 制 是 了 一 个 ESOPE 机 器 翻 译 计 划 ， 用 于 ARIANE 机 器 翻译 
系统 的 实用 化 ， 投 资 5600 万 法 郎 。 日 本 对 机 器 翻译 的 专项 投资 为 140 亿 
日 元 ( 约 相当 于 1 亿美 元 ) 。 


我 国政 府 对 于 目 然 语言 处 理 技术 也 非常 重视 ， 投 入 了 大 量 的 经 
费 。 


在 国家 重大 基础 研究 发 展 计 划 973 项 目 中 ，1999 年 至 2003 年 科技 部 
首 批 立 项 的 重大 基础 研究 发 展 规划 项 目 “ 图 像 、 语 音 、 上 自然 语言 理解 与 
知识 挖 据 ”将 自然 语言 理解 列 为 重要 的 研究 内 容 。 


在 这 个 项 目的 支持 下 ， 建 立 了 中 文 语言 数据 联盟 (Chinese 
Language Data Consortium， 人 简称 Chinese LDC) ， 挂 靠 在 中 国 中 文 信息 
学 会 ， 其 目标 是 建成 具有 完整 性 、 规 范 性 、 权 威 性 和 系统 性 的 通用 中 
文 语 言 资 源 库 和 中 文 信息 处 理 评测 体制 ， 为 中 文 信息 处 理 的 基础 研究 
和 应 用 研究 提供 文 持 ， 促 进 中 文 信息 处 理 技术 的 发 展 。 目 前 ， 中 文 语 
言 数 据 联盟 有 会 员 单 位 70 多 个 ， 各 类 语言 资源 80 多 种 ， 其 中 ，30% 的 
语言 资源 对 会 员 人 免费 提供 ， 在 全 世界 范围 内 实现 了 中 文 语言 数据 资源 
的 共享 。 该 联盟 目 2006 年 正式 运行 以 来 ， 每 天 都 有 专业 人 员 进 行 网 站 
访问 和 电话 咨询 ， 已 经 共享 语言 资源 200 多 套 ， 授 权 评 测 单位 使 用 40 多 
个 ,在 上 自然 语言 处 理 中 发 挥 了 很 好 的 作用 。 


2004 年 科技 部 重大 基础 研究 发 展 项 目 规划 “数字 内 容 理 解 的 理论 与 
方法 ”再 次 将 自然 语言 处 理 作为 重要 内 容 ， 其 目的 在 于 建立 大 规模 的 
语料库 、 知 识 库 和 数据 库 ， 作 为 语义 计算 (semantic computation) 的 
基础 ， 在 信息 内 容 理解 (information content understanding) 的 计算 模 
型 与 方法 方面 ， 人 研究 信息 内 容 理 解 的 基础 问题 ， 在 给 定 需 求 的 条 件 下 
进行 语义 计算 ;在 信息 内 容 理解 的 关键 技术 和 应 用 方面 ， 人 研究 不 民 信 
居 的 过 滤 和 多 媒体 信息 检索 等 国家 有 重大 需求 的 基础 应 用 技术 ， 建 立 
计算 模型 和 方法 的 验证 环境 。 


国家 863 计 划 也 投入 了 大 量 的 资金 用 于 目 然 语言 处 理 技 术 的 开发 。 
2002 年 的 重大 项 目 “ 奥 运 多 语言 智能 信息 服务 系统 关键 技术 及 示范 系统 
研究 ”突出 以 人 为 本 的 信息 服务 ， 通 过 网 络 手段 对 各 国 记者 和 观众 提 
供 综合 、 全 面 、 多 语种 、 可 定制 的 信息 服务 ， 使 得 任何 人 在 任何 时 间 
和 任何 场合 ， 都 可 以 获取 奥运 有 关 的 信息 ， 从 而 通过 “科技 奥运 ?实现 
了 “人 文 奥 运 ” 的 目标 。 


国家 目 然 科学 基金 委员 会 也 文 持 目 然 语 言 处 理 的 研究 ， 先 后 设立 
了 重点 项 目 、 面 上 项 目 和 青年 基金 项 目 ， 人 研究 范围 涉及 到 汉语 、 蒙 古 
语 、 藏 语 、 维 吾 尔 语 等 语种 语料库 建设 和 语义 分 析 等 基础 问题 ， 文 字 
输入 法 、 机 器 翻译 、 目 动 文 摘 等 应 用 问题 对 于 目 然 语言 的 词汇 、 句 
子 、 语 义 、 篇 章 等 方面 进行 了 有 效 的 探索 。1999 年 的 国家 目 然 科 学 基 
金 重点 项 目 “ 汉 语 话语 翻译 关键 技术 研究 ”取得 了 具有 创新 意义 的 重要 
成 果 ， 建 立 了 国际 领先 的 多 语种 口语 对 照 语料库 ， 研 制 了 若干 个 有 特 
色 的 实验 口语 翻译 系统 和 多 语种 口语 翻译 平台 。2007 年 的 国家 自然 科 
学 基金 重点 项 目 “ 融 合 语言 知识 与 统计 模型 的 机 器 翻译 方法 研究 ”试图 
将 基于 规则 的 理性 主义 方法 和 基于 统计 的 经 验 主义 方法 有 效 地 结合 起 
BE, Pim SERERE e 


国家 哲学 社会 科学 规划 办 公 室 也 立项 文 持 目 然 语 言 处 理 研究 ， 设 
立 了 相应 的 社会 科学 基金 研究 项 目 。2003 年 立项 的 “计算 语言 学 方法 研 
究 ”， 总 结 了 国内 外 的 计算 语言 学 方法 ， 使 之 系统 化 ， 理 论 化 ， 具 体 
化 。 由 于 方法 的 研究 是 目 然 语言 处 理 系 统 (诸如 机 器 翻译 、 语 料 库 、 
言 轧 检索、 信息 抽取 、 文 本 分 类 等 ) 的 关键 问题 ， 这 项 研究 成 果 ， 对 
于 各 种 类 型 的 目 然 语言 处 理 实用 系统 的 开发 ， 在 方法 上 具有 普 裔 的 指 
导 意 义 ， 对 于 解决 我 国 当 前 在 目 然 语言 信息 处 理 中 的 理论 和 现实 问 
题 ， 具 有 重要 的 推动 作用 。 这 个 课题 中 总 结 出 来 的 一 些 方法 已 经 运用 
于 中 文 信 息 处 理 的 研究 ， 歼 果 恨 好 ° 


可 以 看 出 ， 国 家 对 于 自然 语言 处 理 的 大 力 支持 ， 促 进 了 我 国 自然 
语言 处 理 的 发 展 。 国 家 在 我 国 自然 语言 处 理 技术 的 研制 和 发 展 中 ， 起 
了 举足轻重 的 作用 。 


目前 ， 我 国 的 目 然 语 言 处 理 已 经 取得 了 显著 的 成 绩 。 语 料 库 技术 
得 到 了 充分 的 发 展 ， 建 立 了 一 批 具 有 重要 影响 的 语言 货源 库 ， 面 癌 信 
轧 处 理 的 汉语 基础 研究 有 了 长 足 的 进展 ， 理 论 成 果 初 见 成 效 ， 应 用 拉 
术 开 发 短 劲 发 展 ， 产 业 化 进程 磊 果 素 素 。 


我 国 开 发 的 这 些 语言 资源 库 和 目 然 语言 处 理 系 统 中 ， 部 分 技术 已 
经 达到 或 者 基本 达到 实用 化 水 平 。 例 如 ， 各 种 类 型 的 汉语 语料库 、 现 
代 汉 语 语法 信息 词典 、 知 网 、 汉 字 输 入 系统 、 汉 字 激 光 排 版 系统 、 机 
堪 翻 译 系统 、 搜 索引 擎 等 。 


许多 新 的 研究 方向 不 断 出 现 ， 在 实际 应 用 的 驱动 下 ， 目 然 语言 处 
理 技 术 不 断 与 各 种 新 技术 相 结 合 ， 开 发 出 越 来 越 多 的 实用 技术 。 例 
如 ， 网 络 内 容 管理 和 监控 的 研究 ， 不 仅 与 目 然 语言 处 理 技术 有 关 ， 而 


且 与 网 络 技术 、 情 感 计 算 、 图 像 理解 等 技术 有 关 ; 语音 目 动 翻译 技术 
涉及 到 机 硕 翻 译 、 语 音 识别 、 语 音 合成 、 语 音 通 讯 等 多 种 技术 。 


目 然 语言 处 理 有 着 明确 的 应 用 目标 ， 语 音 合 成 、 语 音 识 别 、 信 息 
检索 、 信 息 抽 取 、 文 本 分 类 、 文 本 数据 挖掘 、 目 动 文摘 、 机 器 翻译 
等 ， 都 是 目 然 语言 处 理 的 重要 应 用 领域 。 由 于 现实 的 目 然 语 言 极为 复 
杂 ， 不 可 能 直接 作为 计算 机 的 处 理 对 象 ， 为 了 使 现实 的 目 然 语言 成 为 
可 以 由 计算 机 直接 处 理 的 对 象 ， 在 这 众多 的 应 用 领域 中 ， 我 们 都 需要 
根据 处 理 的 要 求 ， 把 自然 语言 处 理 抽象 为 一 个 “问题 ”(problem) ， 再 
把 这 个 问题 在 语言 学 上 加 以 “形式 化 ”(formalism) ， 建 立 语言 的 “形式 
模型 ” (formal model) ， 使 之 能 以 一 定 的 数学 形式 ， 严 密 而 规整 地 表 
示 出 来 ， 并 且 把 这 种 严密 而 规整 的 数学 形式 表示 为 “ 算 
iE" (algorithm) ， 建 立 自 然 语言 处 理 的 “计算 模型 ” (computational 
model) ， 使 之 能 够 在 计算 机 上 实现 。 在 自然 语言 处 理 中 ， 算 法 取决 于 
形式 模型 ， 形 式 模型 是 自然 语言 计算 机 处 理 的 本 质 ， 而 算法 只 不 过 是 
实现 形式 模型 的 手段 而 已 。 因 此 ， 这 种 建立 语言 形式 模型 的 研究 是 非 
常 重 要 的 ， 它 应 当 属 于 自然 语言 处 理 的 基础 理论 研究 。 


由 于 自然 语言 处 理 的 复杂 性 ， 这 样 的 形式 模型 的 研究 往往 是 一 
个 “ 强 不 适 定 问题 (strongly ill-posed problem) ， 也 就 是 说 ， 在 用 形 
式 模 型 建立 算法 来 求解 目 然 语 言 处 理 的 问题 时 ， 往 往 难 以 满足 问题 解 
的 “存在 性 ”`\“ 唯 一 性 ”和 “稳定 性 "的 要 求 ， 有 时 是 不 能 满足 其 中 的 一 
条 ， 有 了 时 甚至 三 条 都 不 能 满足 。 因 此 ， 对 于 这 样 的 强 不 适 定性 问题 求 
解 ， 应 当 加 入 适当 的 “约束 条 件 (constraint conditions) ， 使 问题 的 一 
部 分 在 一 定 的 范围 内 变 成 * 适 定 问 题 ”(well-posed problem) ， 从 而 顺 
利 地 求解 这 个 问题 。 


目 袋 语言 处 理 是 一 个 多 边缘 的 交叉 学 科 ， 因 此 ， 我 们 可 以 通过 计 
算 机 科学 、 语 言 学 、 心 理学 、 认 知 科 学 、 人 工 智 能 等 多 学 科 的 通力 合 
作 ， 把 人 类 知识 的 威力 与 计算 机 的 计算 能 力 结合 起 来 ， 给 自然 语言 处 
理 的 形式 模型 提供 大 量 的 、 丰 富 的 “约束 条 件 ”， 从 而 解决 目 然 语 言 处 
理 的 各 种 困难 问题 。 自 然 语言 处 理 这 个 学 科 的 边缘 性 、 交 叉 性 的 特 
点 ， 为 解决 这 样 的 “ 强 不 适 定 问题 ?提供 了 有 力 的 手段 ， 我 们 有 可 能 把 
目 然 语 言 处 理 形式 模型 的 研究 这 个 “ 强 不 适 定 问题 * 变 成 “ 适 定 问题 ”， 
这 是 我 们 在 人 研究 目 然 语言 处 理 的 形式 模型 的 有 时候， 值得 特别 庆 到 的 ， 
也 是 应 该 特别 注意 的 。 


早 在 自然 语言 处 理 这 个 学 科 出 现 之 前 ， 语 言 计算 研究 的 先驱 者 们 
就 开始 探索 自然 语言 的 形式 模型 。 例 如 ， 马 尔 可 夫 链 (Markov 
chain) , Jf X Æ f& ( Zipfs Law) ， 商 农 (Shannon) X 
T" (entropy) 的 研究 ， 巴 希 勒 (Y. Bar-Hillel) 的 范畴 语法 ， 哈 里 
斯 (Z. Harris) 的 语言 串 分 析 法 ， 库 拉 金 娜 (O.C.Kymaruma) 的 语言 集 
合 论 模型 等 。 马 尔 可 夫 (A. A. Markov) 等 具有 远见 卓识 的 学 者 很 早 
就 从 形式 描述 的 角度 来 研究 自然 语言 ， 开 自然 语言 处 理 形式 模型 

(Formal models for NLP) 研究 的 先河 » 


随 厦 目 然 语言 处 理 研 究 的 发 展 ， 一 系列 的 形式 模型 开始 建立 起 
来 。 这 些 形式 模型 大 致 可 以 归纳 为 如 下 几 种 图 : 


1. 基于 短语 结构 语法 的 形式 模型 : 主要 有 乔 姆 斯 基 的 短语 结构 语 
法 ， 递 归 转 移 网 络 和 扩充 转移 网 络 ， 目 确 癌 上 分 析 法 与 目 顶 癌 下 分 析 
法 ， 通 用 句法 生成 器 和 线 图 分 析 法 ，Earley 算 法 ， 左 角 分 析 法 ，CKY 
算法 ，Tomita 算 法 ， 乔 姆 斯 基 的 管辖 一 约束 理论 与 最 简 方 案 ， 尤 喜 
(A. Joshi) 的 树 邻 接 语 法 等 。 


2. 基于 合 一 运算 的 形式 模型 : 主要 有 卡 普兰 (R. M. Kaplan) 的 词 
汇 功能 语法 ， 马 丁 凯 依 的 功能 合 一 语法 ， 盖 效 达 (G. Gazdar) 的 广义 
短语 结构 语法 ， 锡 伯 (Shieber) 的 PATR， 班 拉 德 (C. Pollard) 的 中 心 
语 驱 动 的 短语 结构 语法 ， 佩 瑞 拉 (F. Pereira) 的 定子 句 语法 等 。 


3. 基于 依存 和 配 价 的 形式 模型 ， 主 要 有 泰 尼 埃 (L. Tesniere) 的 依 
存 语法 ， 德 国学 者 的 配 价 语法 ， 哈 德 森 (Hudson) 的 词语 法 等 。 


4. 基于 格 语法 的 形式 模型 : 主要 有 菲 尔 默 (C. J. Fillmore) 的 格 语 
法 和 框架 网 络 。 


5. 基于 词汇 主义 的 形式 模型 : 主要 有 格 罗 斯 (M. Gross) 的 词汇 
语法 ， 斯 里 托 (Sleator) MAME (Temperley) 的 链 语 法 ， 词 汇 语 义 
学 ， 词 网 (WordNet) 等 。 


o. 基于 概率 和 统计 的 形式 模型 : 主要 有 N- 元 语法 ， 隐 马尔 可 夫 模 
^" (Hidden Markov Model, falPRHMM) , RARA, TEES 
(Condition Random Field， 人 简称 CRF) ， 查 尼 阿 克 (Charniak) 的 概率 
上 下 文 无 关 语 法 和 词汇 化 的 概率 上 下 文 无 关 语 法 ，Bayes 公 式 ， 动 态 规 
划算 法 ， 品 声 信道 模型 ， 最 小 编辑 距离 算法 ， 决 策 树 模型 ， 加 权 上 自动 
机 ，Viterbi 算 法 ， 向 前 算法 等 。 


7. 语义 目 动 处 理 的 形式 模型 主要 有 义 素 分 析 法 、 语 义 场 理 论 ， 
语义 网 络 理 论 ， 蒙 塔 古 的 蒙 塔 古 语法 ， 威 尔 克 斯 (Y. A. Willks) 的 优 
WELZ, Hw (R. C. Schank) 的 概念 依存 理论 ， 梅 里 楚 克 

(Mel'chuk) 的 意义 一 文本 理论 等 。 


8. 语 用 自动 处 理 的 形式 模型 : ERAS (Mann) 和 汤姆 生 
(Thompson) 的 修辞 结构 理论 ， 文 本 连贯 中 的 常识 推理 技术 等 。 


我 们 在 注意 目 然 语 言 处 理 的 应 用 研究 的 同时 ， 亚 待 加强 目 然 语言 
处 理 的 形式 模型 的 研究 ， 为 世界 的 目 然 语言 处 理 形 式 模 型 的 研究 ， 做 
出 应 有 的 页 献 。 


自然 语言 处 理 像 一 股 强 劲 的 东风 吹 进 了 传统 的 理论 语言 学 的 许多 
部 门 ， 使 这 些 部 门面 目 一 新 。 


在 传统 的 语 首 学 领域 内 ， 早 束 进 行 了 语 首 合成 占 的 研制 工作 。 


出 生 在 斯 洛 伐 克 (当时 属于 匈牙利 王国 ) AY AA A DOES 
( Wolfgang von Kempelen) F 1769 4E f£ 7& tE 4| y £3 F XE. - Z& 31e H 
(Maria Theresa) 女皇 制造 了 一 个 叫做 图 尔 克 的 机 器 (Mechanical 
Turk) 。 


图 尔 克 机 是 一 个 会 下 象棋 的 目 动机 器 ， 它 的 前 端 是 一 个 布 满 了 内 
轮 的 大 木 箱 ， 在 这 个 大 木 箱 的 后 面 ， 坐 着 一 个 机 器 人 ， 这 个 机 器 人 在 
下 象棋 的 时 候 ， 会 用 自己 的 机 械 手 来 移动 棋子 。 数 十 年 间 ， 这 个 图 尔 
元 机 在 欧洲 和 美国 进行 巡回 比赛 ， 据 说 曾经 打败 了 法 国 旦 带 拿 破 仑 ， 
甚至 还 和 英国 数学 家 巴 贝 奇 (Charles Babbage) 做 过 对 弈 ， 名 噪 一 
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图 1.2 图 尔 克 机 


但 是 ， 后 来 发 现 ， 这 苋 然 是 一 场 恶 作 剧 。 原 来 这 个 图 尔 殉 机 的 全 
部 动作 都 是 由 藏 在 大 木 箱 内 部 的 一 个 会 下 象棋 的 活生生 的 人 控制 着 


由 
的 。 不 然 ， 这 个 图 尔 殉 机 也 许可 以 看 成 是 人 工 闹 能 最 早 的 一 个 成 整 
NE! 
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1769 年 至 1790 年 间 ， 他 还 做 了 男 外 一 件 举世 瞩目 的 大 事 : 发 明了 第 一 
台 能 够 合成 完整 句子 的 语音 合成 载 。 他 的 这 个 装置 包括 一 个 模拟 肺 部 
的 救 风 器 ， 一 个 橡胶 制 成 的 嘴 ， 一 个 曙 子 孔 ， 一 个 模拟 声带 的 曲 片 ， 
用 于 产生 摩擦 音 的 各 种 不 同 的 哨子 ， 以 及 用 于 给 塞 首 提 供 喷 出 气流 的 
一 个 附加 的 小 辟 风 器 。 这 种 语音 合成 事实 际 上 旦 一 个 共 吗 箱 。 操 作 员 
用 双手 移动 操作 杆 来 打开 或 关闭 鼻子 孔 ， 


图 1.3” 肯 佩 积 发 明 的 语音 合成 器 


调节 有 弹性 的 皮 制 < 声腔 "， 就 可 以 产生 各 种 不 同 的 元 音 和 辅音 。 
受 当时 技术 水 平 的 限制 ， 肯 佩 秋 发 明 的 这 人 台 语 音 合成 器 是 用 木头 或 皮 
革 来 制造 的 ， 材 料 虽然 还 比较 简陋 ， 却 开 了 语音 合成 这 项 技术 的 先 
河 。 


1939F, Z3 (H. Dudler) 就 在 纽约 的 国际 博览 会 上 展 出 了 “说 
WHL” (talking machine) ， 这 人 台 说 话机 叫做 Voder， 一 时 引起 和 爱 动 ， 这 
是 实验 语 首 学 研究 的 重要 成 果 。 


图 1.4 Voder 说 话机 


两 百 多 年 过 去 之 后 ， 我 们 不 再 使 用 木头 或 皮革 来 制造 语 首 合成 如 
了 ， 我 们 也 不 再 需要 人 来 亲自 担任 操作 员 了 “。 现 代 语 音 合成 (speech 
synthesis) 的 任务 就 是 使 用 计算 机 从 文本 产生 语 首 ， 把 可 视 的 书面 文 
本 转换 成 可 听 的 语音 ， 所 以 ,语音 识别 又 叫做 “文本 一 语音 转 
换 ” (text-to-speech conversion) 或 简称 “ 文 语 转换 ”(TTS) 。 这 样 的 语 


合成 是 用 计算 机 来 进行 的 ， 与 当年 肯 佩 千 的 语 首 合成 右 不 可 同日 而 
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语音 频谱 提供 出 来 的 信息 实在 太 多 了 ， 正 如 著名 语音 学 家 范 特 (G.M. 
Fant) 所 说 的 ， 人 们 很 容易 淹没 在 不 了 解 其 意义 的 各 种 声学 特征 细 市 
的 汪洋 大 海 之 中 ， 不 过 ， 由 于 这 种 语 首 合成 妖 的 研究 不 仅 有 实际 用 
途 ， 还 可 以 进一步 揭示 人 类 言语 产生 的 机 制 ， 并 可 作为 研究 言语 的 产 
生 和 感知 的 工具 。 


美国 哈 斯 金 (Hanskins) 实验 室 、 贝 尔 实 验 室 、 拨 省 理工 学 院 、 
剑桥 空军 研究 实验 室 、 瑞 典 斯 德 哥 尔 摩 皇 家 工学 院 、 德 国 夫 琅 禾 费 研 
完 院 、 中 国 科 学 扩 术 大 学 都 进行 过 语音 合成 的 研究 。 语 音 合成 已 经 进 
入 实用 化 阶段 。 我 国 在 语音 合成 如 的 研究 方面 已 取得 很 大 成 绩 ， 可 以 
实时 地 合成 汉语 普通 话 的 语 首 ， 有 的 项 目 达 到 了 世界 水 平 。 语 首 合成 
技术 已 经 得 到 了 广泛 的 应 用 。 


现代 语音 合成 有 着 多 种 多 样 的 、 非 稼 广泛 的 用 途 。 


惠 和 爷 ， 语 音 合 成 圳 可 以 用 于 基于 电话 的 会 话 智 能 代理 系统 
(conversation agent system) 中 ， 这 种 智能 代理 可 以 与 人 进行 对 话 和 
交谈 。 目 前 国外 的 会 话 智能 代理 系统 已 经 实用 化 了 。 


其 次 ,语音 合成 器 还 可 以 在 那些 不 古 会 话 的 场合 用 来 对 人 说 话 ， 
例如 ， 用 语音 合成 右 来 给 让 人 大 声明 读 ， 用 语音 合成 右 来 做 视频 游 
戏 ， 用 语音 合成 锻 来 做 儿童 玩具 。 


最 后 ， 语 音 合成 还 可 以 用 于 帮助 那些 神经 受 损 的 病人 说 话 。 例 
如 ， 英 国 著 名 天 体 物理 学 家 霍金 (Steven Hawking) H+ SALSA 
PEA RE ARE LE (ALS) 而 失去 了 讲话 的 能 力 ， 现 代 语 音 合成 技术 
给 他 帮 了 大 忙 ， 他 可 以 通过 打字 把 信息 传递 给 语 首 合成 融 ， 并 让 语 首 
合成 妖 说 出 单词 ， 以 此 来 同人 们 交谈 。 这 样 ， 尽 管 他 喘 患 绝症 ， 仍 然 
可 以 在 剑桥 大 学 的 讲台 上 仇 佩 而 谈 ， 给 学 生 们 讲课 。 


目前 最 先进 的 语音 合成 系统 可 以 在 各 种 不 同 的 输入 环境 下 产生 优 
质 的 目 然 语音 ， 尽 管 这 样 的 语音 合成 系统 产生 出 来 的 声音 还 显得 有 些 
采 板 ， 并 且 只 能 局 限于 它们 所 使 用 的 那些 语音 的 范围 之 内 ,但 是 ， 这 
种 技术 已 经 显示 出 诱 人 的 应 用 前 景 。 


语音 目 动 分 析 的 实质 是 用 计算 机 把 属于 声学 领域 的 连续 的 物理 言 
语 信号 变换 为 属于 抽象 的 语言 学 领域 的 离散 的 描述 。 奥 登 (K.W. 
Otten) 曾 指出 ， 语 音 分 析 要 注意 四 个 主要 问题 : (1) 选择 恰当 的 语 
言 单元 ， (2) 把 连续 的 信号 转换 为 离散 的 信号 ， (3) 研究 言语 声学 
特征 的 可 变性 ， (4) 研究 言语 的 元 余 度 。 


语音 分 析 的 具体 应 用 就 是 语音 识别 。 国 外 已 经 研制 成 DRAGON、、 
HEARSAY、HARRY、HWIM 等 试验 性 的 英语 语音 识别 系统 系统 。 我 
国 在 语音 识别 方面 ， 主 要 围绕 着 特定 说 话 者 大 词 表 语音 识别 系统 和 非 
特定 说 话 者 小 词 表 语 音 识 别 系统 展开 工作 ， 已 研制 出 一 批 实用 化 的 系 
统 。 安 徽 科 大 讯 飞 公司 推出 的 “开口 上 网 ”语音 识别 系统 ， 只 要 用 普通 
话 口 呼 互 联网 的 网 页 地 址 ， 就 可 以 顺利 地 打开 相应 的 网 页 。 


现代 的 语 首 实验 室 已 经 用 计算 机 装备 起 来 ， 目 然 语言 处 理 技术 使 
古老 的 语 首 学 走 上 了 现代 化 的 道路 。 


和 目 然 语 言 处 理 还 对 传统 的 形态 学 (morphology) 提出 了 新 问题 。 
在 机 器 翻译 和 人 机 对 话 的 研究 中 ， 部 要 对 单词 进行 形态 分 析 ， 这 整 促 
进 了 形态 学 的 研究 。 


针对 目 然 语言 处 理 的 形态 学 研究 主要 解决 两 个 问题 ， 词 例 还 原 


(tokenization) 和 词 目 还 原 (lemmatization) ° 


“ 词 例 ”(token) 是 文本 中 独立 的 词汇 单元 。 所 谓 “* 词 例 还 原 ”， 惑 
是 目 动 地 把 句子 中 的 单词 作为 独立 的 词 例 切 分 出 来 。 英 语文 本 中 的 单 
词 一 般 是 界限 分 明 的 ， 单 词 与 单词 之 间 存 在 空 日 ， 单 词 的 切 分 不 像 汉 
语 书 面 文本 那样 困难 。 但 是 ， 汉 语 书 面 文本 是 不 分 词 的 ， 词 与 词 之 间 
的 界限 被 淹没 在 连续 的 汉字 文本 之 中 ， 汉 语 书 面 文 本 的 “ 目 动 切 词 ” 成 
为 了 汉语 自然 语言 处 理 的 一 个 瓶 贷 问题 。 


词 目 还 原 (lemmatization) 的 目的 是 把 文本 中 实际 存在 的 变形 词 
还 原 成 原形 词 ， 以 便 让 计算 机 查 词典 。 


传统 的 形态 学 研究 都 要 区 分 届 折 (inflection) 和 派生 
(derivation) 。 如 英语 的 amend/amended (改善 ) 是 屈折 ， 
amend/amendment 是 派生 ， 前 者 作为 词 形变 化 看 每 ， 后 者 作为 构词法 
问题 看 待 。 然 而 ， 对 于 计算 机 来 说 ， 也 可 以 不 作 这 样 的 区 分 。 例 如 ， 
在 形态 分 析 的 上 时候， 可 以 把 amended 和 amendment 都 归 入 amend 进 行 统 
一 的 处 理 。 一 个 目 动 形态 分 析 方 案 可 包括 一 部 词 干 词典 和 一 套 描述 词 
形变 化 和 构 词 的 规则 系统 ， 其 中 既 有 派生 ， 也 有 屈折 。 这 样 ， 在 分 析 
上 时， 给 出 词 干 ， 计 算 机 就 可 以 目 动 地 列举 出 它 的 所 有 的 变化 形态 ， 而 
给 出 一 个 变化 形式 ， 计 算 机 残 可 以 上 自动 地 把 它 切 分 为 词 于 、 词 缀 和 词 
尾 。 另 外 ， 还 要 考虑 一 些 特殊 的 现象 。 如 perform, give, go 等 动词 的 过 
去 时 形式 分 别 为 performed, gave, went， 名 词 city 的 复数 形式 cities 在 去 


掉 词 级 之 后 ， 还 要 把 词 干 的 形式 作 某 些 改 变 ， 编 写 词法 分 析 程 序 时 ， 
应 该 设法 使 这 些 各 不 相同 的 情况 条 理化 。 在 机 器 翻译 欣欣 向 采 的 50 年 
代 末 和 70 年 代 初 ， 学 者 们 曾经 对 俄语 、 德 语 这 样 一 些 屈折 变化 丰富 的 
语言 进行 过 严格 的 词法 分 析 ， 编 制 过 相当 精细 的 目 动 形态 分 析 规 则 。 
目前 ， 在 机 需 翻 译 和 人 机 对 话 中 的 目 动 形态 分 析 技 术 已 经 十 分 成 熟 
[fe 


计算 机 还 要 求 区 分 各 种 同形 现象 ， 例 如 ， 英 语 frighten 中 的 -en 要 与 
oven 中 的 -en 区 别 开 来 ，reaped (收获 ) 中 的 -ed 要 与 reed (7:5) 中 的 - 
ed 区 别 开 来 。 


| 


这 样 的 研究 ， 就 是 目 然 语言 处 理 中 的 “ 词 日 还 


原 ”(lemmatization) 问题 。 


汉语 书面 文本 的 形态 分 析 ， 主 要 是 “ 目 动 切 词 ?和 * 目 动 标 注 ”。 这 
些 问 题 至 今 还 没有 很 好 解决 。 


例如 ， 如 果 我 们 想 查询 “和 服 ” 而 上 互联 网 (web) 进行 查询 ， 可 
征 查 询 结 采 往往 是 


“工作 方法 和 服 务 态度 * 
“皮鞋 和 服装" 。 


由 于 目 动 切 词 的 错误 ， 我 们 往往 得 不 到 所 需要 的 结果 。 


汉语 书面 文本 的 目 动 标注 ， 结 果 也 不 理想 。 下 面 是 2008 年 汉语 词 
类 标注 的 测试 结果 : 


测试 集 规模 


语料库 名 称 ( 词 次 数 ) A 线 最 佳 封闭 测试 
香港 城 大 CITYU 184 314 84. 25 89.51 
台湾 “ 中研院 ”CKIP 91 071 88.61 92. 95 
宾 州 树 库 CTB 59 955 86.09 94.28 
教育 部 语 用 所 NCC 102 344 9.59 95.41 
北京 大 学 PKU 156 407 88.09 94.50 


图 1.5 ”汉语 词类 标注 的 测试 结果 (2008) 


从 图 中 可 以 看 出 ， 最 佳 的 封闭 测试 结果 才 95.41%， 仍 然 存在 很 多 
问题 需要 进一步 研究 。 


由 此 可 见 ， 目 然 语言 处 理 的 发 展 ， 对 传统 的 形态 学 研究 提出 了 严 
峻 的 挑战 。 


自然 语言 处 理 对 于 传统 的 句法 学 冲击 最 大 ， 各 种 立足 于 自然 语言 
目 动 处 理 的 句法 分 析 理 论 和 方法 犹如 雨 后 春 穷 应 运 而 生 ， 形 成 了 百花 
齐 放 的 局 面 。 


在 机 右 翻 译 人 研究 的 早期 ， 共 联 数学 家 库 拉 人 金 娜 


忠 用 集合 论 方法 建立 了 俄语 句法 的 数学 模型 ， 精 确 地 定义 了 一 些 
语法 概念 ， 这 一 模型 成 为 了 苏联 科学 院 数 学 研究 所 和 语言 研究 所 联合 
研制 的 法 俄 机 器 翻译 系统 的 理论 基础 。 


著名 数理 逻辑 学 家 巴 希 勒 提出 了 范畴 语法 (category grammar) , 
建立 了 一 套 形式 化 的 句法 类 型 和 演算 规则 ， 通 过 有 和 穷 步 又 ， 可 以 判断 
一 个 句子 是 否 合乎 语法 。 这 些 ， 都 大 大 地 推动 了 传统 句法 分 析 方 法 癌 
精密 化 、 算 法 化 的 方 同 发 展 。 


乔 姆 斯 基 的 形式 语言 理论 是 影响 最 大 的 早期 计算 语言 学 的 句法 理 
论 。 乔 姆 斯 基 定 义 了 0 型 语法 、 上 下 文 无 关 语 法 、 上 下 文 有 关 语 法 和 正 
则 语法 四 种 类 型 的 形式 语法 。 其 中 的 上 下 文 无 关 语 法 又 叫做 短语 结构 
语法 (Phrase Structure Grammar， 人 简称 PSG) 。 这 种 短语 结构 语法 广泛 
地 应 用 于 自然 语言 的 自动 分 析 和 生成 中 。 但 是 ， 人 们 不 久 就 发 现 ， 短 
语 结构 语法 的 分 析 能 力 不 高 ， 分 析 时 难以 区 分 大 量 的 歧义 句子 ， 短 语 
结构 语法 的 生成 能 力 过 强 ， 往 往 会 生成 大 量 的 不 合 语 法 的 句子 。 就 是 
乔 姆 斯 基本 人 ， 也 认为 短语 结构 语法 不 能 充分 地 描述 目 然 语 言 。 于 是 
他 提出 转换 语法 来 克服 短语 结构 语法 的 这 些 弱 点 ， 后 来 转换 语法 逐渐 
发 展 成 为 转换 生成 语法 。 不 过 ， 这 种 生成 转换 语法 的 分 析 效 率 也 不 
高 ， 并 没有 在 实际 的 自然 语言 处 理 系统 中 受到 欢迎 。 由 于 短语 结构 语 
法 结构 清晰 ， 易 于 操作 ， 计 算 语言 学 的 学 者 们 抛弃 了 转换 生成 语法 ， 
又 转 同 短语 结构 语法 ， 于 是 出 现 了 各 种 增强 的 短语 结构 语法 。 例 如 ， 
扩充 转移 网 络 (Augmented Transition Network， 简 称 ATN) 。ATN 的 
表层 结构 分 析 和 深层 结构 生成 是 同时 进行 的 。 


20 世 纪 60 年 代 后 期 ， 查 斯 特 里 (Chastellier) 把 程序 设计 语言 的 
W- 语 法 引进 了 自然 语言 处 理 中 ， 他 证 实 了 英语 和 法 语 的 转换 语法 都 可 
以 通过 这 样 的 W- 语 法 来 重 写 。 


美国 语言 学 家 布 列 斯 南 (J. Bresnan) 主张 建立 面向 词汇 的 非 转换 

的 语法 ， 她 和 卡 普 兰 一 起 ， 于 1983 年 提出 了 词汇 功能 语法 (Lexical 
Functional Grammar， 简 称 LFG) 。 蕊 丁 - 凯 依 于 1983 年 提出 了 “ 合 一 语 
iX" (Unification Grammar， 人 简称 UG) ， 于 1985 年 提出 了 “功能 合 一 语 
iX" (Functional Unification Grammar， 人 简称 FUG) ° H245 ^ wR A 
(E. Klein) 、 沙 格 (I. Sag) 和 普 鲁 姆 (G. Pulum) 等 人 于 1985 年 提 
出 了 “广义 短语 结构 语法 ” (Generalized Phrase Structure Grammar， 简 


称 GPSG) ° 3Hivf& (C. Pollard) 于 1984 年 在 博士 论文 中 提出 了 “中 心 
词语 法 (Head Grammar) ”，1985 年 又 和 同事 们 一 起 提出 了 “中 心 词 驱 
动 的 短语 结构 语法 (Head-driven Phrase Structure Grammar， 简 称 
HPSG) ”。 这 些 语法 都 采用 复杂 特征 结构 来 改进 短语 结构 语法 ， 采 用 
合 一 运算 来 改进 传统 的 集合 运算 ， 从 而 有 效 地 克服 了 短语 结构 语法 的 
缺点 ， 保 持 了 短语 结构 语法 的 优点 。 


理论 语言 学 中 的 层次 分 析 法 实质 上 就 古 短 语 结构 语法 ， 因 此 ， 短 
语 结构 语法 在 计算 机 分 析 和 生成 目 然 语言 时 出 现 的 各 种 问题 ， 在 层次 
分 析 法 中 也 同样 是 存在 的 。 上 述 的 这 些 由 在 改进 短语 结构 语法 的 目 然 
语言 处 理 理论 ， 部 带 有 很 强 的 可 操作 性 ， 具 有 强烈 的 方法 论 色彩 ， 必 
定 会 有 助 于 理论 语言 学 中 广泛 使 用 的 层次 分 析 法 的 改进 和 完善 。 在 这 
方面 ， 我 们 应 该 提倡 理论 语言 学 家 和 目 然 语 言 处 理 专家 进行 经 芝 的 对 
话 ， 互 相 学 习 对 方 的 长 处 ， 共 同 来 解决 短语 结构 语法 在 应 用 中 出 现 的 
各 种 问题 。 


20 世 纪 60 年 代 出 现 了 高 级 程序 设计 语言 ， 使 计算 机 工作 者 从 繁琐 
的 手 编程 序 的 沉重 劳动 中 解放 出 来 ， 与 此 同时 ， 学 者 们 提出 了 这 种 高 
级 程序 语言 的 形式 描述 ， 即 巴 库 斯 一 瑞 尔 范式 (Bacus-Naur Normal 
Form， 简 称 BNF) 。 后 来 发 现 ， 乔 姆 斯 基 提 出 的 上 下 文 无 关 语法 恰好 
与 巴 库 斯 一 瑞 尔 范式 等 价 ， 它 们 的 数学 形式 在 实质 上 是 完全 一 致 的 ， 
于 是 上 下 文 无 关 语法 和 巴 库 斯 一 瑙 尔 范 式 在 数学 上 获得 了 高 度 的 统 
一 。 乔 姆 斯 基 在 语言 学 上 的 创造 性 工作 引起 了 计算 机 科学 家 的 广泛 注 
意 ， 由 于 这 种 在 数学 上 的 高 度 的 一 致 性 ， 乔 姆 斯 基 的 形式 语言 理论 成 
为 了 计算 机 科学 的 基石 之 一 ， 推 动 了 计算 机 科学 的 发 展 。 


作为 人 文科 学 的 理论 语言 学 竟然 能 够 对 于 作为 目 然 科 学 的 计算 机 
科学 的 发 展 取 到 如 此 巨大 的 作用 ， 这 在 科学 史上 是 十 分 罕见 的 。 


还 有 一 种 高 级 程序 语言 叫 ALGOL 60， 这 是 一 种 用 于 科学 计算 的 
程序 语言 ，ALGOL 60 公 布 不 久 ， 人 们 在 使 用 中 发 现 了 它 存 在 歧义 性 
(ambiguity) ， 于 是 计算 机 科学 家 们 纷纷 寻找 机 械 的 办 法 以 便 判 断 一 
种 程序 语言 是 否 具 有 歧义 性 ， 为 此 绞 尽 脑汁 。 后 来 ， 乔 姆 斯 基 从 理论 
上 证 明 ， 一 个 任意 的 上 下 文 无 关 语 法 是 否 具 有 歧义 性 的 问题 是 不 可 判 
定 的 。 由 于 上 下 文 无 关 语 法 与 巴 库 斯 一 璃 尔 范式 等 价 ， 而 ALGOL 60 
的 形式 描述 正 是 巴 库 斯 一 瑞 尔 范式 ， 因 此 ， 这 种 程序 设计 语言 是 否 有 
歧义 性 的 问题 也 是 不 可 判定 的 。 乔 姆 斯 基 有 力 地 回答 了 计算 机 科学 中 
的 这 一 重大 理论 问题 ， 吸 引 了 许多 计算 机 科学 家 来 关心 理论 语言 学 问 


题 。 


近年 来 ， 依 存 语法 在 目 然 语 言 处 理 中 得 到 越 来 越 多 的 关注 。 中 国 
传媒 大 学 树 库 研 究 团队 使 用 依存 语法 (Dependency Grammar) 来 进行 
句子 的 目 动 放 析 ， 可 以 揭示 句子 中 的 依存 关系 ， 进 而 可 以 构造 出 依存 
网 络 ， 加 深 我 们 对 于 句子 中 各 种 成 分 之 间 句 法 和 语义 关系 的 认识 。 


下 面 是 汉语 句子 “约翰 在 桌子 上 放 了 三 本 书 ” 的 依存 树 (上 图 表示 
句法 关系 ， 下 图 表示 语义 关系 ) : 


y. 
IR (E T b X T =% 


约翰 在 桌子 上 X T — ^ Æ 


图 1.6 ”依存 树 


由 “约翰 在 时 子 上 放 了 三 本 书 ”*“ 书 的 封面 旧 了 ”学生 读 过 那 一 本 有 
趣 的 书 ” 等 句子 的 依存 树 可 以 构造 出 如 下 的 依存 网 络 ( 左 图 为 句法 依存 
网 络 ， 右 图 为 语义 依存 网 络 ) : 


上 约翰 
图 1.7 ”依存 网 络 


根据 中 央 电 视 台 “新 闻 联 播 ” 语 料 库 中 的 句子 ， 可 以 构造 出 如 下 的 
依存 网 络 : 


图 1.8 《新 闻 联 播 》 语 料 库 构 成 的 依存 网 络 


我 国学 者 刘海 涛 、 胡 凤 国 的 研究 表明 ， 汉 语 的 复杂 网 络 

(Complex Net) 是 无 标 度 (scale-free) 的 小 世界 网 络 ( small 

world) 。 这 些 的 研究 成 果 在 Bulletin of Physics (《 科 学 通报 》) SA 
然 科学 杂志 上 发 表 ，3 引 起 自然 科学 界 ， 特 别 是 物理 学 界 的 天 注 。 


20 世 纪 70 年 代 以 来 ,国外 建立 了 一 些 立 足 于 语义 的 目 然 语言 理解 
系统 ， 使 长 期 不 受 重视 的 语义 学 得 到 了 发 展 ， 目 然 语言 处 理 也 影响 到 
了 语义 学 方面 。 


近 几 十 年 来 ， 某 些 语 言 学 家 认为 ， 语 义学 不 应 该 是 语言 学 的 一 个 
分 文 ， 他 们 只 关心 语言 的 形式 研究 ， 而 把 语义 的 研究 推 给 哲学 或 其 他 
学 科 来 进行 。 但 是 ， 随 痢 机 天 翻 译 和 目 然 语 言 理解 研究 工作 的 进展 ， 
再 加 上 语言 学 理论 论战 的 需要 ， 促 使 语言 学 家 去 研究 语义 学 。 通 过 人 研 


完 的 实践 ， 学 者 们 逐渐 认识 到 ， 甚 至 句法 的 研究 也 征 不 可 避免 地 与 语 
义学 纠缠 在 一 起 的 。 因 此 ， 他 们 重 痢 对 语义 学 发 生 了 兴趣 ， 并 且 这 种 
兴趣 迅速 地 与 日 俱 增 。 


哲学 家 们 曾经 提出 过 意义 公设 系统 ， 它 包括 规则 系统 、 强 洱 符 号 
(+) 、 逻 辑 连 词 (and^ or^ not) 等 ， 这 样 ， 便 可 以 把 词 的 意义 分 
解 为 若干 个 基本 意义 组 成 的 意义 公设 系统 。 在 意义 公设 系统 中 ， 词 的 
意义 可 以 由 一 组 语义 公设 来 确定 ， 可 以 使 用 一 阶 谓词 演算 (First Order 
Predicate Calculus 人 简称 FOPC) 来 描述 。 哲 学 家 们 和 逮 辑 学 家 们 的 这 些 
人 研究， 为 目 然 语言 处 理 中 的 语义 研究 打下 了 基础 。 在 这 种 情况 下 ， 一 
些 语 言 学 家 ， 如 美国 的 弗 托 和 玛 考 利 (J.D. McCauley) 等 又 把 语言 和 
逻辑 相互 关系 这 样 的 问题 重新 担 了 出 来 。 乔 姆 斯 基 关 于 表层 结构 和 次 
层 结构 的 理论 ， 把 语义 问题 提 到 了 相当 的 高 度 。 卡 次 (J. Katz) A 
托 等 提出 了 解释 语义 学 ， 采 用 成 分 分 析 法 ， 利 用 语义 成 分 、 标 记 和 关 
系 来 定义 词 符 成 分 ， 并 加 上 一 些 控 制 和 选择 限制 来 演绎 地 解释 句子 的 
语义 。 这 样 的 研究 对 于 目 然 语言 处 理 很 有 帮助 。 


费 尔 默 (C. J. Fillmore) 提出 了 格 语法 (case grammar) ， 从 句子 
的 深层 句法 表示 来 推导 句子 的 表层 结构 ， 较 好 地 解决 了 句法 与 语义 相 
结合 的 问题 。 格 语法 规则 产生 的 结构 ， 不 仅 与 句法 相关 ， 而 且 与 语义 
相关 ， 给 目 然 语言 处 理 的 研究 提供 了 方便 。 格 语法 在 计算 机 上 的 分 析 
效率 也 比较 高 ， 受 到 了 和 上 自然 语言 处 理 研究 者 的 欢迎 。 后 来 ， 我 尔 默 又 
提出 了 框架 网 络 (FrameNet) ， 倡 导 在 语料库 基础 上 进行 框架 语义 学 
的 研究 。 


玛 考 利 等 所 出 了 生成 语义 学 ， 他 们 一 开始 天 用 语义 结构 来 描述 名 
子 ， 然 后 通过 一 系列 的 转换 由 这 种 语义 结构 产生 出 表层 结构 ， 而 用 不 
着 对 深层 结构 作 任 何 说 明 。 


威 尔 克 斯 提出 了 “优选 语义 学 ” (preference semantics) ， 并 把 这 种 
理论 用 于 机 器 翻译 系统 的 研究 中 。 


美国 数理 逻辑 学 者 蒙 塔 古 提出 了 蒙 塔 古语 法 (Montague 
grammar) ， 美 国 计 算 机 科学 家 疝 克 提出 了 概念 依存 理论 
(Conceptional Dependency theory， 人 简称 CD 理论 ) ， 美 国 心 理学 家 奎 
尼 安 (R. Quillian) 提出 了 语义 网 络 理论 ， 美 国人 工 智 能 学 者 西蒙 斯 
(R. F. Simmons) 又 进一步 该 进 了 语义 网 络 理论 ， 并 把 这 种 理论 应 用 
于 自然 语言 处 理 中 。 这 些 理论 都 十 分 强调 语义 的 作用 ， 在 上 自然 语言 处 
理 的 应 用 中 ， 有 的 理论 (如 CD 理论 ) 直接 以 语义 模型 制导 ， 辅 以 句法 
仿 查 ， 打 人 破 了 以 句法 模型 制导 ， 辅 以 语义 检查 的 传统 格局 ， 实 现 了 目 
然 语言 处 理 的 “句法 语义 一 体 化 ”。 


美国 学 者 汉 德 雷 斯 (Handres) 在 描述 一 种 语言 的 过 程 时 ， 把 大 量 
的 语义 信息 植 入 该 语言 的 句法 中 ， 这 样 定义 的 句法 系统 叫做 “语义 语 
法 ”(semantic grammar) 。 语 义 语法 提高 了 自然 语言 的 处 理 速度 ， 效 
率 较 高 ， 后 来 被 许多 实时 处 理 的 自然 语言 系统 所 采用 。 


近年 来 ， 由 于 语义 学 与 句法 学 的 联系 日 趋 密切 ， 逻 辑 语法 有 了 很 
大 的 发 展 。 人 逻辑 语法 (logic grammar) 是 指 用 谓词 逻辑 来 表达 的 语 
法 ， 它 是 逻辑 程序 设计 和 目 然 语言 处 理 相 结合 的 产物 。 在 机 妖 翻 译 和 
自然 语言 理解 的 研究 领域 里 ， 经 常 使 用 谓词 逻辑 来 描述 知识 和 进行 逻 
辑 推 理 。20 世 纪 70 年 代 以 来 ,逻辑 以 PROLOG 语 言 作为 形式 被 应 用 于 
程序 设计 ， 谓 词 逻 辑 葡 不 再 仅仅 用 于 描述 知识 和 逮 辑 推理 的 问题 ， 还 
作为 逻辑 程序 设计 的 工具 来 措 述 解决 问题 的 过 程 。PROLOG 语 言 使 得 
逻辑 和 程序 设计 这 两 个 相距 甚 远 、 完 全 不 同 的 概念 协调 统一 为 一 个 单 
独 的 概念 “逻辑 程序 设计 ” (Logic Programming) 。 在 用 PROLOG 
语言 来 解决 自然 语言 处 理 的 各 种 问题 的 研究 过 程 中 ， 远 辑 语 法 日 益 成 


熟 起 来 。 目 前 主要 有 四 种 影响 较 大 的 逻辑 语法 : 定子 句 语 法 (Definite 
Clause Grammar， 简 称 DCG) ， 外 位 语法 (eXtraposition Grammar， 简 
称 XG) ， 修 饰 成 分 结构 语法 (Modifier Structure Grammar, {al bj 
MSG) ， 约 束 逻 辑 语 法 (Restricting Logic Grammar， 人 简称 RLG) 。 这 
些 语法 巧妙 地 把 逻辑 和 句法 结合 起 来 ， 使 措 述 性 的 形式 语法 具备 了 推 
理 的 能 力 ， 这 是 自然 语言 处 理 研 究 中 应 该 注意 的 一 个 问题 。 


语言 在 实际 使 用 时 ， 总 是 以 篇 章 或 话语 的 形式 出 现 的 ， 省 略 和 指 
代 以 及 单词 和 句子 的 歧义 问题 一 般 要 在 上 下 文 背 景 之 下 才能 解决 ， 而 
要 在 字里行间 找 出 说 话 者 的 真正 目的 ， 则 需要 根据 广泛 的 天 于 客观 世 
界 的 知识 和 其 他 信息 才 有 可 能 知 其 端倪 。 因 此 ， 目 然 语言 处 理 中 还 出 
现 了 一 些 关 于 篇 章 处 理 和 话语 分 析 的 理论 和 方法 ， 如 脚本 (scrip) ^ 
规划 (plan) 、 故 事 语法 (story grammar) ^ EGER (story tree) 等 。 
目 然 语言 处 理 对 如 何 处 理 省 略 、 指 代 、 话 题 、 照 应 天 系 以 及 篇 章 结构 
等 问题 ， 也 进行 了 一 些 有 益 的 探讨 。 这 些 都 推动 了 语 用 学 的 发 展 ， 并 
且 使 语 用 学 与 语义 学 紧密 地 联系 起 来 。 


1983 年 ， 美 国 斯 坦 福 大 学 的 巴 威 斯 (J. Barwise) MAA (J. 
Perry) 出 版 了 《情景 和 态度 》 (Situations and Attitudes) 一 书 ， 提 出 
了 “情景 语义 学 ” (situation semantics) 的 上 自然 语言 模型 。 所 谓 “ 情 景 ” 
就 是 个 体 、 性 质 、 关 系 和 时 空位 置 等 构成 现实 世界 ( 非 语言 环境 和 场 
面 ) 的 各 种 状况 的 集合 ， 可 以 利用 这 样 的 情景 来 描述 语言 的 语义 。 和 情 
景 语 义学 把 一 般 的 语义 学 和 语 用 学 紧密 地 结合 起 来 ， 对 上 自然 语言 的 研 
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目 然 语 言 处 理 还 促进 了 词汇 学 的 发 展 。 词 典 编 纂 历来 是 一 件 十 分 
枯燥 乏味 而 极为 圣 昔 的 工作 。 计 算 机 使 得 这 件 工作 变 得 简单 易 行 、 轻 
松 愉快 。 计 算 机 可 以 给 词典 提供 足够 的 例句 ， 免 去 了 手工 编 舍 时 园 抄 


大 量 卡片 的 麻烦 ;计算 机 可 以 通过 单词 频 度 和 使 用 度 的 统计 ， 确 定名 
用 词 和 通用 词 ， 编 写 出 各 种 语言 的 基础 词 表 和 频率 词 表 。 近 年 来 ， 还 
出 现 了 各 种 形式 的 电子 词典 ， 这 种 词典 中 存 贮 着 丰富 的 语言 信息 ， 为 
机 融 翻 译 和 目 然 语言 处 理 其 它 部 门 的 研究 提供 了 基本 的 静态 语言 信 
恩 。 日 本 成 立 了 电子 词典 研究 所 ， 专 | 人 研究 电子 词典 的 理论 和 应 用 问 
题 。 现 在 ， 在 许多 国家 ， 电 子 词典 的 编制 已 经 成 为 了 一 种 产业 。 


词汇 语义 学 (Lexical Semantics) 是 现代 语义 学 和 现代 词汇 学 结合 
的 产物 ， 其 研究 对 象 是 语言 中 的 词义 问题 。 它 源 于 语言 学 ， 并 与 语义 
网 、 本 体 论 、 词 典 编 搂 、 知 识 表 示 等 人 工 智 能 和 认 知 科学 密切 相关 ， 
已 成 为 自然 语言 处 理 和 理解 的 重要 基础 。 


词汇 语义 学 的 研究 内 容 涉 及 词汇 的 语义 表达 以 及 词汇 概念 与 概念 
之 间 的 语义 关系 。20 世 纪 70 年 代 末 期 ， 语 言 学 家 开始 利用 语料库 来 研 
究 词 义 以 及 词语 之 间 的 搭配 关系 。 例 如 ， 完 全 根据 语料库 编制 而 成 的 
Collins COBUILD English Dictionary 就 进行 了 词语 搭配 关系 的 研究 。 其 
后 ， 以 词 网 (WordNet) 为 代表 的 词汇 语言 资源 对 词汇 语义 学 研究 产 
生 了 深远 影响 。 随 着 研究 的 深入 ， 有 越 来 越 多 标注 词汇 语义 信息 的 语 
料 库 出 现 : 如 标注 了 论 元 结构 及 语义 角色 信息 的 框架 网 络 
(FrameNet) 、 动 词 网 络 (VerbNet) 等 。 相 应 地 ， 在 理论 研究 层面 ， 
词汇 语义 学 的 理论 框架 也 有 了 长 足 发 展 。 


近年 来 ， 互 联网 的 发 展 日 新 月 异 ， 也 对 于 目 然 语言 处 理 提 出 了 新 
的 挑战 。 


与 互联 网 有 关 的 自然 语言 处 理 的 问题 有 很 多 。 除 了 机 器 翻译 之 
外 ， 还 有 基于 网 络 的 问答 系统 (Web-based question answering ) 。 这 
种 基于 网 络 的 问答 系统 是 简单 的 网 络 搜索 的 进一步 发 展 ， 在 基于 网 络 


的 问答 系统 中 ， 用 户 不 只 是 仅仅 键入 关键 词 进行 提问 ， 而 是 可 以 用 目 
然 语言 提出 一 系列 完整 的 问题 ， 从 容易 的 问题 到 困难 的 问题 都 可 以 
提 。 例 如 下 面 的 问题 ， 


What does“divergent”mean? (divergent 的 意思 是 什么 ? ) 

What year was Abraham Lincoln born? (亚伯拉罕 :林肯 生 于 哪 一 
年 ? ) 

How many states were in the United States that year? ( 那 一 年 在 美国 
DEIN? ) 

How much Chinese silk was exported to England by the end of the 
18 century? (18 世 纪 末 有 多 少 中 国 的 丝绸 出 口 到 英国 ? ) 

What do scientists think about the ethics of human cloning? (F 
隆 人 的 论 理 学 问题 科学 家 们 是 如 何 考 虑 的 ? ) 


在 这 些 问题 中 ， 有 的 问题 只 要 求 回 答 定义 (definition) ， 有 的 问 
题 只 要 求 回 答 诸 如 日 期 、 地 点 等 简单 的 新 闻 要 素 (factoid) ， 对 于 这 
样 的 问题 ， 使 用 搜索 引擎 就 可 以 回答 了 。 但 是 对 于 需要 抽取 拘 入 在 网 
页 的 其 他 文本 中 的 信息 才能 回答 的 那些 更 加 复杂 的 问题 ， 就 要 进行 推 
理 (inference) ， 也 就 是 根据 已 经 知道 的 事实 推出 结论 ， 或 者 从 多 重 
的 信息 源 或 网 页 中 对 信息 进行 综合 或 摘 取 。 这 就 涉及 到 信息 抽取 
(information extraction) 、 文 本 数据 挖 握 (Text Data Mining ) 等 问 
题 。 


另外 ， 互 联网 主要 是 由 语言 文字 构成 的 ， 随 着 互联 网 的 发 展 ， 网 
络 成 为 无 比 丰 是 的 语言 资源 。 互 联网 上 的 词 频 统 计 结 采 ， 有 助 于 深化 
我 们 对 于 词 频 的 认识 。 


让 刻 松 对 于 互联 网 上 的 用 词 进行 了 统计 分 析 。 他 发 现 ， 互 联网 上 
词 频 统计 的 结果 与 书面 文本 的 词 频 统 计 结果 是 有 差异 的 。 下 面 图 1.9 是 
互联 网 中 的 最 常用 词 的 频 度 排序 。 可 以 看 出 ， 汉 语 中 频 度 最 高 的 单词 
是 “我 ?和 “你 ”， 而 不 是 大 家 公认 的 “的 ”。 这 是 值得 我 们 关注 的 。 


词 条 Rank 词 频 用 户 数 ” 词 条 ” Rank 词 频 用 户 数 


我 1 369456033 522587 没 11 88331674 498771 
你 2 360305074 531529 ”呵呵 12 85357971 463 119 
的 3 357092967 517 424 吧 15 81840800 497 436 
J 4 230590231 486 471 要 14 804630908 506 878 
不 5 189282134 519413 那 15 79267472 499990 
是 0 179442381 522535 去 16 7862653] 499 857 
就 7 115686907 502708 ”什么 17 77052055 500 361 
好 8 105951026 523 219 都 18 76903779 490 601 
在 9 CSB PAL 52255 说 19 72666295 498 554 
有 10 97214653 524 156 也 20 70099176 497291 


图 1.9 互联 网 的 词 频 , “我 "的 排名 第 一 


郑 林 时 编著 的 《普通 话 三 干 常用 词 表 》 四 是 一 部 很 有 代表 性 的 普 
通话 第 用 词 表 。 但 是 ， 认 上 戊 松 的 研究 发 现 ， 互 联网 上 的 很 多 常用 词 ， 
在 普通 话 三 干 第 用 词 表 中 并 不 存在 ， 而 普通 话 三 二 第 用 词 表 中 的 某 些 
常用 词 ， 在 互联 网 中 的 出 现 频 度 却 很 低 。 他 根据 网 络 的 用 词 统计 结 
果 ， 建 立 了 用 户 词 亩 ， 发 现 用 户 词 库 中 的 词 与 普通 话 三 干 常 用 词 表 中 
的 词 并 不 一 致 ， 具 体 情况 如 下 。 


用 户 词 库 前 856 个 词 条 中 不 在 普通 话 三 千 锅 用 词 中 的 单词 共 216 
^, f: 


。 语气 词 : ug, m ERO RE o ERE 


新 产生 的 词 : 手机 、 电 脑 、 郁 问 、 老 公 、 下 载 、 上 网 。 
专 有 名 词 : 北京、 中国、 广州、 深圳。 
党 用 词 的 组 合 : ARA ` EDE ° 


普通 话 三 千 常 用 词 在 用 户 词 库 中 的 词 频 很 低 的 单词 : 


留 声 片 、 端 阳 节 、 目 来 水 笔 、 是 子 。 


孙 茂 松 对 于 互联 网 用 词 的 上 壕 研 究 结果 ， 补 充 了 传统 语言 研究 的 
不 足 。 


互联 网 还 给 新 词 新 语 的 研究 提供 了 重要 和 资源。 通过 互联 网 可 以 获 
得 大 量 的 新 词 、 新 语 、 痢 用 法 ， 互 联网 成 为 词汇 学 研究 的 重要 手段 。 


利用 互联 网 ， 我 们 还 可 以 发 现 一 些 流 行 热 点 词 的 使 用 走 癌 。 下 面 
X TA A 15] “Michael Jackson” 在 2009 年 6 一 7 月 间 的 搜索 次 数 统计 ， 从 中 
我 们 可 以 看 出 这 个 热点 词 的 使 用 走向 ， 在 2009 年 6 月 26 日 搜索 次 数 最 
高 ， 因 为 这 一 天 ， 著 名 歌手 杰克 过 (Michael Jackson) 3 5 HK 
HE o 


在 互联 网 中 还 可 以 由 公众 来 编 赛 百 科 全 书 。 闭 名 的 维基 百科 
Wikipedia 十 互联 网 上 动态 的 百科 全 书 ， 成 为 当代 社会 重要 的 知识 源 。 


可 见 互联 网 对 于 传统 的 词汇 学 研究 和 秤 书 编 侣 方法 提出 了 挑战 。 


Denkan | “迈克尔: 杰克 带 父 亲 怀 疑 儿子 辞世 系 他 头 
: ers (EH) 
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图 1.10 Michael Jackson 的 搜索 次 数 统计 


VE 和 | wikipedia | f > GQ: + Rims Gra | 
WIKIPEDIA 
English Aas 三 
The Free Encyctopedia TU 一 百科 事 克 
3017 0004 articles 612 000+ PE 
Deutsch Espanol 
Dye freie E La enciclapadea Mire 
MB 0004. Artikel 507 0004 asirske 
Français Poiski 
Liancyciondcbe ibre Woina encyklopedia 
444 0000 ieticlen £390 D006 himel 
Italiano Pyceknů 
L'enciclopedia Ubea 
400 + ci 425 ON comet 
Portugués Nederianda 
A enciciopédia five Da vrije encyclopedie 
504 0804 artigos 555 000+ articelen 


search = suchen «rechercher + szukaj + HR + neerca + zoeken + buscar + busca: 
nonce s sok » PUE e sok + haku + cerca iris s keresés > led ara» căutare * 


sails oe v. dam 和 


图 1.11 Wikipedia 成 为 公信 \ 众 参与 的 百科 全 书 


在 目 然 语 言 处 理 的 推动 下 ， 文 字 学 人 研究 开始 同 图 象 识 别 的 方法 结 
合 起 来 。 因 为 文字 也 是 一 种 图 象 ， 图 象 识 别 中 采用 的 许多 方法 ， 如 图 


象 识 别 的 句法 分 析 方法 ， 也 可 用 到 文字 识别 中 去 ， 这 方面 的 工作 ， 在 
美国 和 日 本 都 取得 了 很 大 的 成 束 ， 这 也 许 会 给 古老 的 文字 学 研究 开辟 
出 一 片 靳 天 地 。 


我 国 的 汉字 识别 研究 独 具 特 色 ， 采 用 选取 汉字 特征 点 和 数学 形态 
学 的 方法 来 提取 汉字 的 结构 特征 ， 在 印刷 体 汉 字 识 别 方面 ， 已 经 研究 
出 一 批 实用 化 、 商 品 化 的 系统 。 这 些 系统 一 般 都 具有 版 面 分 析 、 文 本 
识别 、 识 别 结 采 后 处 理 、 目 动 纠 错 、 上 月 动 编辑 、 上 月 动 输出 等 功能 。 在 
联机 手写 体 汉 字 识 别 方面 ， 识 别 率 正 逐渐 提高 ， 已 达到 商品 化 的 水 
平 。 


在 计算 机 上 输入 输出 英文 、 俄 文 等 拼音 文字 (主要 是 拉丁 字母 和 
斯 拉夫 字母 ) 的 问题 早已 解决 ， 但 像 汉 字 这 样 包括 数 万 个 字符 的 大 字 
符 集 ， 其 输入 输出 计算 机 的 问题 整 不 是 很 容易 的 事 了 。 为 了 解决 这 个 
问题 ， 有 必要 利用 计算 机 来 研究 汉字 的 频率 ， 分 析 汉 字 的 部 件 ， 测 试 
汉字 的 信息 量 和 宛 余 度 ， 设 计 高 效率 的 汉字 输入 键盘 。 这 些 都 促使 汉 
字 人 研究 与 自然 语言 处 理 的 研究 结合 起 来 。 


目前 ， 在 拉丁 字母 和 斯 拉夫 字母 以 外 的 一 些 拼音 文字 ， 如 泰文 、 
组 鲜 文 、 阿 拉 伯 文 、 索 文 、 汰 文 等 在 计算 机 上 的 输入 输出 问题 ， 已 经 
有 了 可 喜 的 研究 成 果 。 在 目 然 语言 处 理 的 推动 下 ， 传 统 的 文子 学 园地 
里 ， 吹 起 了 一 股 现代 化 的 东风 。 


现在 目 然 语言 处 理 正 处 于 激动 人 心 的 时 刻 。 普 通 计 算 机 用 户 可 以 
使 用 的 计算 资源 正 以 惊人 的 速度 迅速 增长 ， 互 联网 的 兴起 并 且 成 为 了 
无 比 丰 襄 的 信息 货源 ， 无 线 移动 通信 日 区 普及 并 且 日 葵 增 长 起 来 ， 这 
些 都 使 得 目 然 语 言 处 理 的 应 用 成 为 了 当前 科学 技术 的 热门 话题 。 


这 里 我 想 列举 出 当前 自然 语言 处 理 的 一 些 应 用 项 目 ， 由 此 可 以 看 
出 这 个 学 科 近 期 发 展 对 于 社会 进步 的 重要 作用 。 


e 自动 生成 天 气 预 报 : 加 拿 大 的 计算 机 程序 TAUM_-METEO 能 够 
接受 每 天 的 天 和 气 预 报 的 数据 ， 然 后 自动 生成 天 气 预 报 的 报告 ， 不 必 经 
过 进一步 的 编辑 就 可 以 用 英语 和 法 语 公 布 。 


e 自动 翻译 和 自动 问答 : 美国 Systran 的 Babel Fish 机 器 翻译 系统 每 
天 可 以 从 Alta Vista 搜 索引 擎 处 理 100 万 个 翻译 的 问题 。 基 于 网 络 的 问答 
系统 (Web-based question answering) 是 简单 的 网 络 搜索 的 进一步 发 
展 ， 在 基于 网 络 的 问答 系统 中 ， 用 户 不 只 是 仅仅 键入 关键 词 进行 提 
问 ， 而 是 可 以 用 自然 语言 提出 一 系列 完整 的 问题 ， 从 容易 的 问题 到 困 
难 的 问题 都 可 以 提 ， 计 算 机 根据 网 络 搜 索 的 结果 ， 用 自然 语言 回答 用 
户 的 提问 。 


e 饭馆 咨询 服务 : 目前 ， 世 界 上 已 经 出 现 不 少 使 用 自然 语言 的 口 
语 回 计 算 机 咨询 饭馆 服务 情况 的 系统 。 例 如 ， 前 往 美 国 马 时 诸 塞 州 
Cambridge 访 问 的 一 个 访问 者 用 口语 问 计 算 机 在 什么 地 方 可 以 吃饭 。 系 
统 查 询 了 一 个 关于 当地 饭 第 的 数据 库 之 后 ， 给 出 有 关 信 息 用 目 然 语 言 
做 出 回答 。 


e 图 象 到 语音 的 自动 转换 : 给 计算 机 装 上 图 象 识别 系统 ， 它 就 可 
以 观看 一 段 足球 比赛 的 录像 ， 并 且 用 目 然 语言 实时 地 向 足球 爱好 者 报 
告 比赛 的 情况 。 


e 残疾 人 增强 交际 :对 于 有 言语 或 交际 障碍 的 残疾 人 ， 计 算 机 能 
预见 到 在 说 话 过 程 中 下 面 将 要 出 现 的 词语 ， 给 他 们 做 出 提示 ， 或 者 帮 


助 他 们 说 话 时 在 词语 方面 进行 扩充 ， 使 残疾 人 能 完整 地 说 出 商洛 的 话 


语 。 


e 旅行 咨询 服务 : 例如 ， 美 国 的 Amtrak 旅 行 社 、 美 国联 合 航空 公 
司 以 及 其 他 的 一 些 旅 行 社 可 以 与 智能 会 话 代 理 (intelligent conversation 
agent) 进行 交互 ， 在 智能 会 话 代理 的 指导 下 ， 他 们 能 够 自动 地 处 理 关 
于 旅行 中 的 订 票 、 到 达 、 离 开 等 方面 的 信息 。 


e 语音 地 理 导航 : 汽车 制造 公司 可 以 给 汽车 芍 驶 员 提 供 语音 识别 
和 文本 一 语音 转换 系统 ， 使 得 他 们 可 以 通过 语音 来 控制 他 们 的 环境 ^ 
娱乐 以 及 导航 系统 ， 从 而 可 以 目 由 地 使 用 他 们 的 双手 操纵 汽车 。 在 国 
际 空间 站 的 宇航 员 也 可 以 使 用 简单 的 口语 对 话 系 统 来 帮助 他 们 的 工 
作 。 语 音 合成 系统 还 可 以 作为 全 球 定位 系统 (Global Positioning 
System， 人 简称 GPS) 的 语音 导航 ， 使 用 自动 合成 的 语音 来 报告 地 理 情 
况 ， 保 证 芍 驶 员 用 双手 操纵 汽车 。 目 前 使 用 语音 导航 的 GPS 已 经 逐渐 
普及 ， 给 汽车 营 驶 员 提供 了 极 大 的 方便 。 


e 语音 资料 搜索 : 一 些 视频 搜索 公司 使 用 语音 识别 技术 ， 可 以 在 
网 络 上 提供 多 达 数 百 万 小 时 的 视频 资料 的 搜索 服务 ， 并 且 在 语音 资料 
中 搜索 到 与 之 相应 的 单词 。 


e 路 语言 信息 检索 和 翻译 Google (谷歌 ) 在 网 上 提供 跨 语言 信 
恩 检 索 和 40 多 个 语言 对 的 目 动 翻译 服务 ， 用 户 可 以 使 用 他 们 目 己 的 母 
语 来 提问 ， 以 便 搜索 其 他 语言 中 的 有 关 信 息 。Google 还 可 以 对 用 户 拓 
出 的 问题 进行 目 动 翻译 ， 找 出 与 所 提出 的 问题 最 相关 的 网 页 ， 然 后 目 
动 地 把 它们 翻译 成 用 户 的 母语 。 


e 作文 自动 评分 : 在 美国 ， 像 培 生 公司 (Pearson) 这 样 的 大 型 出 
版 社 和 像 ETS (English Test Service) 这 样 的 测试 服务 公司 使 用 自动 系 
统 来 分 析 数 千 篇 学 生 的 英语 作文 ， 对 于 这 些 作文 进行 目 动 打 分 、 目 动 
排序 和 目 动 评价 ， 而 且 计 算 机 的 打分 结果 与 人 的 打分 结果 几乎 训 无 二 
致 ， 难 以 分 辩 。 


e 目 动 阅读 家 庭 教师 : 让 计算 机 充当 自动 阅读 家 庭 教师 ， 帮 助 改 
善 阅 读 能 力 ， 它 能 教 小 孩 阅 读 故 事 。 当 阅读 人 要 求 阅 读 或 者 出 现 阅 读 
普 误 时 ， 计 算 机 能 使 用 语音 识别 右 来 进行 干预 。 具 有 生动 活 凑 的 动画 
等 征 的 交互 式 虚 拟 智能 代理 可 以 充当 教员 来 教 儿童 学 习 如 何 阅读 。 


e 个 性 化 市 场 服务 : 文本 分 析 公 司 根据 用 户 在 互联 网 论坛 和 用 户 
群体 组 织 中 表现 出 来 的 意见 、 偶 好、 态度 的 目 动 测试 结 采 ， 对 用 户 提 
供 智能 化 、 个 性 化 的 服务 ， 帮 助 用 户 在 市 场 上 挑选 到 符合 他 们 要 求 的 


商品 。 


目 然 语 言 处 理 这 些 应 用 项 目的 成 束 确 实 是 鼓 舞 人 心 的 。 我 们 情 不 
A Seat: “大 哉 目 然 语言 处 理 之 为 用 ! ” 


目 然 语 言 处 理 不 仅 影响 了 传统 理论 语言 学 的 上 述 部 门 ， 而 且 ， 还 
强烈 地 冲击 着 索 绪 尔 以 来 的 普通 语言 学 基本 理论 ， 以 大 量 的 新 的 事实 
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的 发 展 ， 使 我 们 了 解 到 语言 符号 的 许多 重要 特性 ， 从 新 的 侧面 进一步 
丰富 了 我 们 对 于 语言 符号 本 质 的 认识 。 


索 绪 尔 在 他 的 《普通 语言 学 教程 》 一 书 中 ， 曾 提出 语言 符号 具有 
如 下 两 个 重要 的 特性 ( 索 绪 尔 ， 中 译本 ，1980) [8: 


一 、 符 号 的 任意 性 ， 语 言 符号 的 能 指 和 所 指 联系 是 任意 的 。 索 绪 
尔 认为 ， 符 号 任意 性 的 原则 "支配 着 整个 语言 学 ， 它 的 后 果 是 不 胜 枚 举 
的 ， 人 们 经 过 许多 周折 才 发 现 它们 ， 同 时 也 发 现 了 这 个 原则 是 头等 重 
要 的 ”。 


二 、 能 指 的 线条 性 ， 索 绪 尔 指出 ， 语 言 的 能 指 属于 听觉 的 性 质 ， 
只 在 时 间 上 展开 ， 而 且 具 有 借 自 时 间 的 特征 : (1) 它 体 现 为 一 个 长 
BE, (2) 这 长 度 只 能 在 一 个 向 度 上 测定 ， 它 是 一 条 直线 。 索 绪 尔 认 
Jj: “这 是 一 个 似乎 为 常人 所 忽视 的 基本 原则 ， 它 的 后 果 征 数 之 不 尽 
的 ， 它 的 重要 性 与 符号 任意 性 的 规律 不 相 上 下 ， 语 言 的 整个 机 构 部 取 
plu as 


在 我 们 看 来 ， 索 绪 尔 提出 的 语言 符号 的 任意 性 这 一 特征 是 无 可 非 
WAJ, 但 是 ， 他 提出 的 语言 符号 的 第 二 个 特征 一 一 能 指 的 线条 性 束 末 
必 是 正确 的 了 。 因 为 狐 的 研究 结果 表明 ， 语 言 的 能 指 并 不 只 是 线条 性 
NRA RES AR SAR HM (J. K. Firth) 提出 “ 跨 音 段 
iE" (prosodic) ， 他 认为 ， 在 一 种 语言 里 ， 区 别 性 语音 特征 不 能 都 归 
纳 在 一 个 音 段 位 置 上 ， 例 如 ， 语 调 就 不 是 处 于 一 个 音 段 位 置 上 ， 而 是 
处 于 前 后 相 续 的 线条 性 的 音 段 之 外 ， 笼 章 着 或 管 领 大 整个 句子 的 东 
西 。 如 果 我 们 把 语调 这 样 的 跨 音 段 成 分 算 进 去 ， 语 言 的 能 指 束 不 宜 看 
作 线 条 性 的 东西 ， 而 应 该 看 作 立 体 性 的 东西 了 。 


由 于 时 代 所 限 ， 索 绪 尔 当然 不 可 能 提出 那些 只 有 在 电子 计算 机 时 
代 才 能 揭示 出 来 的 语言 符号 的 新 特点 。 


随 看 电子 计算 机 的 出 现 和 发 展 ， 特 别 在 目 然 语 言 处 理 出 现 之 后 ， 
普通 语言 学 的 理论 也 应 该 相应 地 发 展 。 我 们 不 能 墨守成规 ， 满 足 于 旧 
AW, MAVENS Sa AL, me, MAA 


处 理 的 新 成 果 ， 从 新 的 角度 ， 用 新 的 眼光 ， 以 新 的 方法 来 研究 语言 这 
一 个 极为 复杂 的 符号 系统 。 正 是 基于 这 样 的 认识 ， 我 们 觉得 ， 语 言 符 
号 除了 索 绪 尔 所 指出 的 那 两 个 不 尽 完善 的 特点 之 外 ， 还 有 着 如 下 七 个 
TA SLAERBVBER, ° 


第 一 ， 语 言 符号 的 层次 性 


前 面 说 过 ， 索 绪 尔 关于 语言 符号 线条 性 的 观点 ， 早 就 受到 了 语言 
研究 新 成 果 的 严峻 挑战 。 上 弗 斯 的 “ 跨 音 段 论 ”" 已 证 明 ， 语 言 符号 并 不 是 
线条 性 的 东西 ， 而 是 立体 性 的 东西 。 


弗 斯 的 “ 跨 音 段 论 ”只 限于 首位 学 方面 。 其 实 ， 在 语言 的 其 它 方 
面 ， 语 言 符 号 也 不 仅仅 是 线条 性 的 ， 而 是 立体 性 的 东西 。 所 谓 立 体 
E, Diet, Bat SRAM, BITE - 


语言 符号 的 层次 性 ， 在 句子 结构 方面 表现 得 特别 明显 。 


美国 描写 语言 学 派 的 语言 学 家 早 整 指出， 英语 的 “The old men and 
women stayed at home" (年 老 的 男人 和 女人 留 在 家 里 ) 这 句 话 是 有 层 
义 的 。 如 果 我 们 把 这 一 句 话 说 给 一 些 人 听 ， 很 可 能 有 的 听话 人 会 认为 
它 的 意思 是 “年 老 的 男人 和 和 所 有 的 女人 (不 论 年 龄 大 小 ) BER 
里 ”， 另 一 些 听 话 人 会 认为 它 的 意思 是 “所 有 年 老 的 男人 和 所 有 年 老 的 
女人 留 在 家 里 *"， 还 有 的 听话 人 干脆 不 能 作出 决定 ， 处 于 模棱两可 的 状 


AX o 


JQ 


事实 上 , “old men and women” 这 个 名 词 短语 根据 意义 的 不 同 有 两 
种 不 同 的 层次 结构 。 如 果 注 意 到 层次 的 不 同 ， 那 么 ， 这 种 意义 上 两 可 


的 情况 融 可 以 得 到 解释 。 
一 种 层次 结构 是 
oldmen and women 
这 时 ， 这 个 名 词 短语 的 意义 是 :“ 年 老 的 男人 和 所 有 的 女人 ”。 
另 一 种 层次 结构 是 
oldmen and women 


这 时 ， 这 个 名 词 短 语 的 意义 是 : “所 有 年 老 的 男人 和 所 有 年 老 的 女 


A 
» 
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一 般 地 说 ， 如 有 果 要 判断 两 个 语言 斤 段 A=al ap … a, TIB-b, b; ... b, 
是 否 具有 同一 性 ， 至 少 应 该 满足 三 个 条 件 : 

@A 和 B 中 对 应 的 词 形 相同 ， 词 数 相 同 。 即 有 al = bl , as = by ，.…, an 
=bn; Hn-m. 


@A 和 B 中 的 词 序 相同 。 即 : 如 果 有 ai aa , ana MA, M 
有 bi > bs , ,bi >? bm. HF, “=” 表 示 前 于 关系 。 


@A 和 B 中 各 个 词 之 间 的 层次 结构 相同 。 


在 目 然 语言 处 理 中 ， 常 采用 树 形 图 来 表示 语言 符号 的 层次 关系。 
目 然 语言 处 理 的 理论 认为 ， 任 何 一 个 句子 的 线性 序列 的 表层 之 下 ， 痢 
隐藏 着 一 个 层次 分 明 的 树 形 图 。 当 一 个 句子 的 线性 序列 之 下 隐藏 着 两 


个 或 两 个 以 上 的 树 形 图 时 ， 这 个 句子 就 会 产生 歧义 ， 就 会 得 到 不 同 的 
解释 。 


树 形 图 由 结 点 和 连接 结 点 的 校 组 成 。 树 形 图 的 各 个 结 点 之 间 ， 有 
两 种 关系 值得 注意 : 一 种 是 文 配 关系 ， 它 反映 了 上 下 结 点 之 间 的 先 寿 
和 后 裔 的 关系 ， 一 种 是 前 于 关系 ， 它 反映 了 左右 结 点 之 间 前 位 和 后 位 
的 关系 。 语 言 符 号 的 线条 性 只 反映 了 前 于 关系 ， 而 没有 反映 支配 关 
系 ， 当 然 殉 有 很 大 的 局 限 。 


树 形 图 与 目 然 语言 处 理 中 广 为 应 用 的 短语 结构 语法 有 着 明显 的 对 
应 关系 。 乔 姆 斯 基 的 短语 结构 语法 ， 既 能 描述 目 然 语 言 ， 也 能 描述 程 
序 设计 语言 ， 这 种 语法 已 经 成 为 了 形式 语言 理论 的 重要 人 研究 内 容 。 在 
形式 语言 理论 中 建立 的 短语 结构 语法 与 树 形 图 之 间 的 对 应 和 联系 ， 正 
征 基于 对 语言 符号 层次 性 的 认识 的 基础 之 上 的 。 短 语 结构 语法 和 树 形 
图 被 广泛 地 使 用 于 目 然 语言 处 理 中 ， 几 乎 每 一 个 目 然 语言 处 理 研 究 者 
天 天 都 要 与 短语 结构 语法 和 树 形 图 打交道 ， 天 天 都 要 人 研究 语言 符号 的 
层次 关系 。 目 然 语言 处 理 的 发 展 ， 进 一 步 加 深 了 我 们 对 于 语言 符号 的 
层次 性 的 认识 ， 语 言 符号 的 层次 性 ， 确 实 是 一 个 比索 绪 尔 提出 的 语言 
符号 的 线条 性 更 为 深刻 的 特性 。 


第 二 ， 语 言 符号 的 非 单 元 性 


基于 对 语言 符号 的 层次 性 认识 的 基础 之 上 的 短语 结构 语法 ， 在 机 
如 翻译 和 目 然 语言 理解 的 研究 中 很 快 束 歇 露出 了 它 的 不 少 缺 陷 。 这 种 
语法 分 析 能 力 不 高 ， 分 析 时 难于 处 理 歧 义 等 自然 语言 中 普遍 存在 的 问 
rl, TUN, BREA, 这 种 语法 生成 能 力 过 强 ， 往 往 会 生成 


许多 层 义 的 句子 或 不 合 语 法 的 句子 ， 使 人 误 入 迷津 ， 扑 朔 迷离 。 后 
来 ， 目 然 语言 处 理 研 究 者 发 现 ， 引 起 这 些 缺 陷 的 证 结 在 于 ， 短 语 结构 
语法 生 采 用 单 标记 来 朱 述 语言 符号 的 ， 它 把 语言 符号 看 成 是 不 可 分 割 
的 原子 式 的 单元 ;如 条 把 语言 符号 看 成 是 可 以 分 割 的 非 单 元 性 的 东 
西 ， 采 用 多 标记 函数 或 者 复杂 特征 来 描述 ， 便 可 以 从 根本 上 克服 短语 
结构 语法 的 上 述 缺 陷 ， 大 大 地 改善 短语 结构 语法 的 功能 ， 提 高 它 过 弱 
的 分 析 能 力 ， 限 制 它 过 强 的 生成 能 力 。 这 样 ， 便 提出 了 语言 符号 的 非 
单元 性 问题 。 


其 实 ， 索 绪 尔 早 束 认识 到 了 语言 符号 的 这 种 非 单元 性 。 他 在 《 普 
通 语言 学 教程 》 中 指出 : “语言 可 以 说 是 一 种 只 有 复杂 项 的 代数 ”。 他 
举 出 德语 中 名 词 数 的 变化 来 说 明 这 个 论点 。 德 语 中 名 词 Nacht (PX, FÉ 
数 ) : Nachte ( 夜 ， 复数 ) 这 个 语法 事实 可 以 用 a/b 这 个 符号 来 代表 ， 
但 是 ， 其 中 的 a、b 都 不 是 简单 项 而 是 复杂 项 ， 它 们 分 别 从 属 与 一 定 的 
系统 之 下 。Nacht 有 和 名词 、 阴 性 、 单 数 、 主 格 等 特征 ， 它 的 主要 元 音 为 
a，Nichte 有 和 名词 、 阴 性 、 复 数 、 主 格 等 特征 ， 它 的 主要 元 首 为 i， 结 
尾 加 了 e，ch 的 读 首 从 /x/ 变 为 /6/. 这 样 ， 束 可 以 形成 许多 对 立 ， 所 以 叫 
做 复杂 项 。 每 一 个 符号 独立 地 看 ， 可 以 认为 是 简单 项 ， 但 是 从 整体 来 
看 ， 则 都 是 复杂 项 。 索 绪 尔 指出 : “语言 的 实际 情况 使 我 们 无 论 从 哪 一 
方面 去 进行 研究 ， 都 找 不 到 人 稍 单 的 东西 ， 随 时 随地 都 是 这 种 相互 制约 
的 各 项 要 素 的 复杂 平衡 。”( 索 绪 尔 ， 中 译本 ，1980) 索 绪 尔 在 这 里 所 
说 的 “复杂 项 ”， 指 的 正 是 语言 符号 的 非 单元 性 。 


早 在 1936 年 ， 美 国语 言 学 家 雅 可 布 了 还 (R. Jakobson) 在 比利时 的 
根 特 城 举行 的 第 三 届 国 际 语 首 学 会 议 上 ， 束 提出 了 能 否 以 对 分 法 为 基 
础 来 分 解 元 音 、 辅 音 等 音 位 的 问题 。1951 年 ， 他 在 与 范 特 (M. 
Fant) ^ 55 (M. Halle) 等 语音 学 家 合 写 的 论文 《语音 分 析 初 探 》 


中 ， 提 出 了 对 分 法 理论 以 及 区 别 特征 学 说 。 他 们 认为 ， 一 切 的 音 (无 
论 元 音 或 是 辅音 ) 都 是 可 分 的 ， 可 以 根据 它们 的 生理 的 或 声学 的 特 
性 ， 用 对 分 法 分 成 一 对 一 对 的 “最 小 对 立体 ” (minimum pairs) 。 例 
如 ， 元 音 的 舌 位 有 “高 一 低 > 的 对 立 ， 辅 音 的 发 音 方 法 有 “ 清 一 浊 ”的 对 
立 。 他 们 把 这 些 最 小 对 立体 归结 为 “十 二 对 区 别 特征 ”(\twelve pairs of 
distinctive features) ， 并 且 指 出 ， 世 界 上 各 种 语言 都 可 以 用 这 十 二 对 
区 别 特 征 加 以 描述 。 这 样 ， 过 去 一 直 被 认为 是 不 可 分 的 单元 性 的 元 
音 、 辅 音 束 变 成 由 奉 干 区 别 特征 组 合 而 成 的 、 非 单元 性 的 结构 体 了 。 
这 种 区 别 特征 理论 已 成 为 现代 语音 学 进行 音 位 分 析 的 基础 。 任 何 一 个 
音 位 都 可 以 用 区 别 特征 的 集合 来 加 以 描述 。 如 某 一 个 音 位 具有 二 项 对 
立 中 的 前 项 特征 ， 记 以 正 号 “+”， 上 有 具有 二 项 对 立 中 的 后 项 特征 ， 记 以 负 
号 “-*?， 就 可 以 作成 一 个 矩阵 表 ， 作 为 对 每 一 个 音 位 的 区 别 特征 集合 的 
述 。 这 种 音 位 理论 ， 已 经 在 语音 自动 识别 和 合成 的 研究 中 得 到 应 
用 ， 证 明 是 行 之 有 效 的 。 这 是 语言 符号 非 单 元 性 的 有 力 证 明 。 


Hi 


雅 可 布 逊 曾 提 到 ， 他 之 所 以 提出 音 位 对 分 理论 ， 是 受到 了 现代 物 
理学 的 影响 所 致 。 他 在 《语音 实体 的 辨识 》 一 文中 写 道 : “语音 学 分 析 
及 其 得 出 的 、 不 能 再 行 分 解 的 音 位 特征 的 概念 ， 同 现代 物理 学 的 研究 
成 果 有 惊人 的 相似 之 处 ， 物 理学 也 正 表 明 ， 物 质 具 有 粒子 状 结构 ， 因 
为 它们 是 由 基本 粒子 构成 的 。” (Jakobson, 1949) 


物理 学 中 关于 物质 具有 粒子 结构 的 观点 ， 音 位 学 中 关于 音 位 由 十 
二 对 基本 的 区 别 特征 组 合 而 成 的 观点 ， 目 然 语 言 处 理 中 关于 语言 符号 
由 多 个 标记 组 合 而 成 的 观 总 ， 它 们 之 间 是 何等 的 相似 ! 客观 世界 中 存 
在 着 的 这 种 相似 现象 ， 说 明了 这 些 现象 之 间 是 有 内 在 联系 的 ， 认 识 事 
物 之 间 的 这 种 相似 性 ， 可 以 增进 我 们 进行 科学 研究 的 才干， 提高 研究 
工作 的 自觉 性 和 目的 性 。 英 国 物 理学 家 法 拉 第 (M. Faraday) 受到 他 


的 老师 戴 维 (H. Davy) 把 化 学 能 转化 为 电能 ， 又 把 电能 转化 为 化 学 能 
NA MeN, WEE CARI BS (RE 
KR) 转化 为 由 磁 生 电 。 经 过 9 年 努力 ， 终 于 完成 了 由 磁 生 电 的 实验 (法 
拉 第 实验 ) ， 建 立 了 电磁 感应 学 说 的 完整 理论 。 正 是 这 种 对 于 事物 之 
间 相 似 性 的 信念 ， 使 我 们 更 加 坚信 ， 非 单元 性 确实 是 语言 符号 的 又 一 
个 重要 特性 。 


目 然 语 言 处 理 的 理论 和 实践 ， 加 深 了 我 们 对 于 语言 符号 的 非 单 元 
性 的 认识 。 为 了 改进 乔 姆 斯 基 的 短语 结构 语法 ， 在 自然 语言 处 理 的 许 
多 理论 中 ， 都 目 觉 地 采用 了 "复杂 特征 ”的 概念 ， 使 用 “特征 / 值 ? 系 统 
描述 句子 的 结构 。 


目 然 语言 处 理 还 提出 了 非 单元 性 的 这 种 “复杂 特征 ?进行 运算 的 数 
学 方法 一 一 “ 合 一 ” (unification) 运算 ， 从 而 使 我 们 对 于 语言 符号 非 单 
元 性 的 认识 可 以 在 计算 机 上 进行 实际 的 操作 和 演算 。 这 种 合 一 运算 ， 
并 不 完全 服从 于 传统 的 集合 论 的 运算 。 集 合 运算 一 般 并 不 考虑 运算 对 
象 的 相 容 性 ， 而 合 一 运算 则 必须 考虑 运算 对 象 的 相 容 性 。 合 一 运算 具 
有 两 种 作用 : 


(合并 原 有 的 特征 信息 ， 构 造 新 的 特征 结构 ， 这 与 集合 论 中 的 “ 求 


检查 特征 的 相 容 性 和 规则 执行 的 前 提 条 件 ， 如 果 参 与 合 一 的 特 
征 相 冲突 ， 束 立即 宣布 合 一 失败 。 


可 见 ， 合 一 运算 提供 了 一 种 在 合并 各 方面 来 的 特征 信息 的 同时 ， 
检验 限制 条 件 的 机 制 。 这 正 古 非 单 元 性 的 语言 符号 在 计算 机 上 运算 时 
所 需要 的 。 所 以 ， 目 然 语言 处 理 不 仅 在 理论 上 证 明了 语言 符号 确实 具 


有 非 单元 性 ， 而 且 还 在 实践 上 使 这 种 非 单元 性 获得 了 在 计算 机 上 进行 
运算 的 可 能 性 。 


第 三 ， 语 言 符号 的 离散 性 


我 们 平时 说 话 时 的 语 流 似 乎 是 连续 不 断 的 ， 但 在 实际 上 ， 这 些 连 
续 不 断 的 语 流 却 征 由 许多 离散 的 单元 所 组 成 的 。 在 水 平方 向上 ， 语 流 
可 以 被 分 解 为 寿 干 段落 ， 一 个 段落 又 可 以 被 分 解 为 看 干 杀 于， 一 个 名 
子 又 可 以 被 分 解 为 看 干 短语 ， 一 个 短语 又 可 被 分 解 为 看 干 单词 ， 一 个 
单词 又 可 被 分 解 为 看 干 语素 ， 一 个 语素 又 可 被 分 解 为 若干 音节 ， 一 个 
音 世 又 是 由 兰 干 个 元 音 和 辅音 音 位 组 合 而 成 的 。 在 从 直方 向 上 ， 语 流 
中 的 各 个 成 分 又 可 引起 联想 ， 引 出 与 之 属于 同一 聚 类 的 者 干 个 离 艇 单 
元 来 。 所 以 ， 在 连续 语 流 的 水 平方 向 和 竖 直 方向 上 上， 实际 上 都 是 与 者 
干 个 不 同 的 离散 单元 联系 着 的 。 


语言 符号 的 这 种 离散 性 ， 在 语 流 的 停 延 时 表现 得 特别 明显 ， 人 们 
往往 可 以 利用 语 流 停 延 的 这 种 离散 性 质 ， 来 区 别 语 流 的 不 同 含义 。 


汉语 的 书面 语 中 词 与 词 之 间 是 连 写 的 ， 不 像 印 欧 语 的 书面 语 那 样 
留 有 空 日 ， 因 此 ， 在 汉语 书面 语 中 ， 词 与 词 之 则 的 离散 特点 体现 不 出 
来 。 这 种 情况 给 汉语 的 目 动 句法 语义 分 析 造 成 了 极 大 的 困难 。 在 中 文 
言 妃 处理 中 ， 汉 语 目 动 句法 语义 分 析 的 第 一 步 便 是 目 动 切 词 ， 根 据 词 
与 词 之 间 的 离散 特征 ， 把 相互 连 在 一 起 的 词 切 开 。 可 以 说 ， 语 言 符 扎 
的 离散 性 ， 是 汉语 目 动 切 词 在 语言 学 上 的 理论 根据 。 


美国 语言 学 家 朱 斯 (M. Joos) 早 就 指出 了 语言 符号 的 这 种 离散 
性 。 他 说 : “数学 研究 工具 一 般 具 有 两 种 类 型 : 连续 分 析 (例如 ， 无 限 
小 量 的 计算 ) 或 离散 分 析 〈 例 如 ， 有 限 群 理论 ) ， 而 可 以 称 为 语言 学 
的 那个 部 门 则 属于 后 者 ， 这 时 ， 它 不 容许 与 连续 性 有 半点 儿 忌 协 ， 因 
此 ， 几 是 与 连续 性 有 关 的 一 切 ， 痢 得 排除 于 语言 学 之 外 。 语 言 学 的 范 
旺 征 绝对 的 ， 十 不 容许 任何 妥协 的 。” 他 还 说 :“ 现 在， 语言 学 家 把 任 
何 语言 ， 也 就 古 任 何 一 个 言语 行为 ， 看 成 是 由 叫做 音 位 的 不 大 数量 的 
基本 单位 组 成 的 ， 这 些 首 位 在 重复 出 现时 被 认为 是 等 同 的 。 从 物理 学 
的 角度 来 看 ，hotel 这 个 词 对 于 不 同 的 人 或 同一 人 发 首 ， 不 可 能 完全 相 
同 地 发 两 次 ， 但 从 语言 学 的 角度 看 ， 这 里 却 有 一 个 平均 数 Ct) ， 它 始 
终 是 同样 的 ， 可 以 不 管 它们 的 细微 差别 ， 而 把 它们 看 作 一 个 不 可 分 解 
的 语言 学 原子 或 范畴 ， 这 种 原子 或 范畴 ， 或 者 是 完全 等 同 的， 或 者 走 
完全 不 同 的 。” 这 里 ， 朱 斯 十 分 明确 地 把 语言 看 成 是 “不 可 分 解 的 语言 
学 原子 或 范畴 ?离散 地 结合 起 来 的 ， 据 此 ， 他 提出 用 离散 数学 来 研究 语 
言 。 他 说 : “物理 学 家 利用 连续 数学 来 解释 言语 ， 如 传 利 叶 分 解 、 目 相 
天 函数 等 ， 而 语言 学 家 则 与 此 相反 ， 他 们 利用 离散 数学 来 研究 语言 。” 
[9] 


朱 斯 天 于 语言 符号 离散 性 的 论述 似乎 有 点 儿 矫 枉 过 正 。 语 言 符号 
当然 具有 离散 性 的 一 面 ， 但 是 ， 语 言 符号 也 有 连续 性 的 一 面 ， 特 别 是 
在 语言 的 使 用 中 。 在 语言 的 交际 过 程 中 ， 我 们 也 可 以 利用 一 些 连 续 数 
学 的 方法 来 镀 究 它 ， 而 且 实际 上 在 这 方面 我 们 已 经 取得 了 不 小 的 成 
绩 。 朱 斯 要 把 “凡是 与 连续 性 有 关 的 一 切 ”, “都 得 排除 在 语言 学 之 
I, 确实 古 太 过 分 了 。 事 实 上 ,“ 离 散 性 "和 “连续 性 ”都 是 语言 符号 本 
喘 所 具有 的 性 质 ， 不 过 ， 在 语言 的 使 用 的 交际 过 程 中 ， 我 们 强调 语言 
符号 的 连续 性 ， 用 连续 数学 的 方法 来 妍 究 它 ， 在 语言 结构 的 分 析 中 ， 


我 们 强调 语言 符号 的 离散 性 ， 用 离散 数学 的 方法 来 研究 它 ， 而 语言 
身 则 是 离散 性 和 连续 性 的 统一 体 。 


根据 语言 符号 的 离散 性 ， 目 然 语 言 处 理 采 用 集合 论 的 方法 ， 建 立 
了 目 然 语 言 的 集合 论 模 型 ， 并 把 这 样 的 模型 应 用 于 机 需 翻 译 中 ， 获 得 
了 很 好 的 效果 。 这 意味 着 ,语言 符 号 的 离散 性 这 一 特性 ， 在 目 然 语言 
计算 机 处 理 的 实践 中 已 经 得 到 了 证 实 。 


AO, 语言 符 号 的 递归 性 


语言 的 句子 是 无 穷 无 尽 的 ， 而 语法 规则 却 是 有 限 的 ， 人 们 之 所 以 
能 够 借助 于 有 限 的 语法 规则 ， 造 出 无 穷 无 尽 的 句子 来 ， 其 原因 束 在 于 
语言 符号 具有 递归 性 。 


语言 符号 的 这 种 递归 性 ， 在 不 同 的 语言 里 表现 不 尽 相 同 。 汉 语 的 
句法 构造 的 递归 性 突出 地 表现 为 句法 成 分 所 特有 的 套 肥 现象。 在 汉语 
里 ， 由 实 词 和 实 词性 词语 组 合 而 成 的 任何 一 种 类 型 的 句法 结构 ， 其 组 
成 成 分 本 映 ， 叉 可 以 由 该 类 型 的 句法 成 分 充任 ， 而 无 须 任何 的 形态 标 
志 。 这 种 套 蕉 现象 在 主 请 结构 、 偏 正 结构 、 述 宾 结 构 、 壕 补 结构 、 联 
合 结构 、 复 谓 绪 构 中 都 是 存在 的 。 这 是 由 语言 符号 的 递归 性 导致 的 汉 
语 语法 的 一 个 重要 特点 。 


A, EOF ART”, H, IRF EER, AANER 
EME ETE ERTA” HOR, Se XJ pL AY ET 
RNR”, DUEHXÓBLASUBUEESURS:OU, EME ALARS 
EIP, BARE ce LE, QU MES ELK 


师 ?” 中 ， 与 它 前面 的 名 词 “ 北 大 ”又 构成 一 个 更 大 的 侦 正 结构 “北大 /数学 
老师 ”， 这 有 征 侦 正 结构 的 套 县 现象 。 这 些 套 琶 现 象 都 反映 出 汉语 语法 的 
递归 性 特点 。 


在 目 然 语言 处 理 的 研究 中 ， 语 言 符号 的 递归 性 起 着 很 大 的 作用 。 
机 需 翻 译 的 实质 ， 融 是 把 源 语言 中 无 限 数目 的 句子 ， 通 过 有 限 的 规 
则 ， 目 动 地 转换 为 目标 语言 中 无 限 数 目的 句子 。 如 果 机 器 翻 译 的 规则 
系统 不 充分 利用 语言 符号 的 递归 性 ， 要 实现 这 样 的 转换 是 非常 困难 
的 ， 甚 至 是 不 可 能 的 。 


乔 姆 斯 基 在 《 乔 姆 斯 基 语 言 理论 介 绍 》 一 书 的 序言 中 指出 ， 早 在 
19 世 纪 初 ， 德 国 杰 出 的 语言 学 家 和 人 文学 者 洪 堡 (W. V. Humboldt) Wi 
观察 到 “语言 是 有 限 手 段 的 无 限 运 用 ”。 但 是 ， 由 于 当时 尚未 找到 能 揭 
示 这 种 理解 所 含 的 本 质 内 容 的 技术 工具 和 方法 ， 洪 堡 的 论断 还 是 不 成 
熟 的 。 


那么 ， 究 葛 应 该 如 何 来 理解 “语言 是 有 限 手段 的 无 限 ” 运 用 呢 ? TE 
姆 斯 基 指 出 :“ 一 个 人 的 语言 知识 是 以 某 种 方式 体现 在 人 脑 这 个 有 限 的 
机 体 之 中 的 ， 因 此 语言 知识 束 古 一 个 由 某 种 规则 和 原则 构成 的 有 限 系 
统 。 但 是 一 个 会 说 话 的 人 却 能 讲 出 并 理解 他 从 来 未 听 到 过 的 句子 及 和 
我 们 所 听 到 的 不 十 分 相似 的 句子 。 而 且 ， 这 种 能 力 是 无 限 的 。 如 有 果 不 
受 时 间 和 注意 力 的 限制 ， 那 么 由 一 个 人 所 获得 的 知识 系统 规定 了 特定 
形式 、 结 构 和 意义 的 句子 的 数目 也 将 会 是 无 限 的 。 不 难看 到 这 种 能 
在 正常 的 人 类 生活 中 得 到 目 由 的 运用 。 我 们 在 日 党 生活 中 所 使 用 和 理 
解 的 句子 范围 症 极 大 的 ， 无 论 束 其 实际 情况 而 言 还 是 为 了 理论 上 描写 
的 需要 ， 我 们 有 理由 认为 人 们 使 用 和 理解 的 句子 的 范围 都 是 无 限 的 。” 


[10] 


那么 ， 怎 样 来 刻画 语言 这 个 无 限 集 的 成 分 组 成 情况 呢 ? 


我 们 可 以 把 语言 中 所 有 的 元 素 列 成 一 个 表 ， 进 行商 单 枚 举 。 例 
如 ， 


L={ọ, a, b, aa, ab, ...} 


这 样 的 刻画 办 法 ， 把 后 面 一 大 部 分 东西 省 略 掉 了 ， 后 面 未 列 出 的 
部 分 ， 只 好 由 我 们 根据 给 出 的 少量 的 元 素 去 想象 ， 这 样 的 刻画 办 法 显 
然 是 不 好 的 。 它 不 能 体现 “有 限 手段 的 无 限 运 用 ”这 一 原则 。 


我 们 应 该 采用 递归 的 方法 来 刻画 语言 ， 为 此 提出 如 下 的 公理 系统 
的 定义 。 


一 个 公理 系统 是 一 个 有 序 三 元 组 (AQS,P) ， 其 中 ，A 是 符号 的 
有 限 集 ， 叫 做 字母 表 ; S 是 A 上 的 符号 串 的 集合 ， 叫 做 公理 ，P 是 在 由 
A 中 的 符号 组 成 的 符号 串 上 的 n 位 关系 的 集合 ，n>2 ( 即 P 中 的 n 元 组 至 
少 必须 是 有 序 对 ) ，P 的 元 叫做 生成 式 或 推理 规则 。 根 据 这 样 的 公理 
系统 ， 我 们 便 可 以 从 公理 S 出 发 ， 多 次 使 用 推理 规则 P， 在 符号 集 A 上 
递归 地 生成 语言 中 的 句子 ， 实 现 “ 有 限 手段 的 无 限 运 用 ”。 因 而 这 个 天 
于 公理 系统 的 定义 是 体现 了 递归 的 原则 的 。 


如 果 我 们 把 公理 系统 中 的 A 想 象 成 前 面 所 壕 的 短语 结构 语法 中 的 
非 终极 符号 VN 和 终极 符号 VT 的 集合 ， 把 S 想 象 成 短语 结构 语法 中 的 初 
符号 Ss， 把 P 想 象 成 短语 结构 语法 中 的 重 写 规则 P， 那 么 ， 我 们 马上 
就 可 以 发 现 ， 短 语 结构 语法 与 公理 系统 是 十 分 相似 的 。 所 以 我 们 可 以 
说 ， 短 语 结构 语法 是 采用 体现 了 递归 原理 的 公理 化 方法 来 描述 自然 语 
言 的 语法 。 


现在 ， 目 然 语 言 处 理 的 理论 业已 严格 证 明 ， 乔 姆 斯 基 的 形式 语法 
实际 上 等 价 于 数学 上 的 一 种 公理 系统 一 一 “ 半 图 厄 系统 ” (semi-Thue 
system) ， 这 种 形式 语法 不 过 是 数学 中 的 公理 系统 理论 在 自然 语言 分 
析 中 的 应 用 而 已 ， 语 言 的 生成 过 程 完全 可 以 通过 公理 系统 这 一 形式 化 
的 手段 得 到 产 格 的 描述 。 正 因为 如 此 ， 乔 姆 斯 基 的 形式 语言 理论 ， 才 
会 既 在 目 然 语 言 的 信息 处 理 中 ， 又 在 计算 机 程序 语言 的 设计 中 ， 得 到 
如 此 广泛 的 应 用 。 


HA, 我们 认为 ， 语 言 符号 的 递归 性 ， 是 反映 了 语言 符号 本 质 的 
又 一 个 特点 。 目 然 语言 处 理 深 化 了 我 们 对 语言 符号 的 递归 性 的 认识 ， 
普通 语言 学 的 理论 对 此 应 该 给 以 足够 的 重视 。 


第 五 ， 语 言 符号 的 随机 性 


索 绪 尔 在 《普通 语言 学 教程 》 中 ， 把 语言 现象 分 为 言语 活动 
(language) 、 言 语 (parole) 和 语言 (langue) 三 样 东西 ， 它 们 之 间 
是 彼此 联系 而 又 相互 区 别 的 。 


他 指出 , “言语 活动 是 多 方面 的 、 性 质 复 杂 的 ， 同 时 路 着 物理 、 生 
理 和 心理 儿 个 领域 ， 它 还 属于 个 人 的 领域 和 社会 的 领域 。 我 们 没 法 把 
它 归 入 任何 一 个 人 文 事实 的 范畴 ， 因 为 不 知道 怎样 去 理 出 它 的 统一 
体 。” 因 此 ,“ 言 语 活动 的 研究 束 包 含 两 部 分 ， 一 部 分 古 主要 的 ， 它 以 
实质 上 是 社会 的 、 不 依赖 于 个 人 的 语言 为 研究 对 象 ， 这 种 研究 纯粹 是 
心理 的 ; 另 一 部 分 是 次 要 的 ， 它 以 言语 活动 的 个 人 部 分 ， 即 言语 ， 其 
PHBL, AMAR, Ce DEE o” 


“把 语言 和 言语 分 开 ， 我 们 一 下 子 就 把 1) 什么 是 社会 的 ， 什 么 
是 个 人 的 ; (2) 什么 是 主要 的 ， 什 么 是 从 属 的 和 多 少 是 偶然 的 分 开 来 
了 o” 


他 指出 , “语言 是 一 种 表达 观念 的 符号 系统 ， 因 此 ， 可 以 比 之 于 文 
字 、 谷 吗 人 的 字母 、 象 征 仪 式 、 礼 市 形式 、 军 用 信和 号 等 等 ,等 等 。 它 
只 是 这 些 系统 中 最 重要 的 。” 而 言语 则 “是 人 们 说 话 的 总 合 *， 它 包括 言 
语 行为 的 过 程 〈 也 就 过 程 ) 和 言语 行为 的 结果 《也 就 是 口头 的 或 书面 
的 言语 作品 ) 。 


索 绪 尔 把 语言 比 作 乐章 ， 把 言语 比 作 演奏 ， 把 语言 和 言语 的 关系 
比喻 为 乐章 和 演奏 的 关系 。 他 说 , “在 这 一 方面 ， 我 们 可 以 把 语言 比 之 
于 交响 乐 ， 它 的 现实 性 是 跟 演 奏 方 法 无 关 的 ; 演奏 交响 乐 的 乐师 可 能 
会 犯 的 错误 绝 不 会 损害 这 种 现实 性 。” 这 是 一 个 非常 贴切 的 比喻 。 CE 
绪 尔 ， 中 译本 ，1980) 


在 索 绪 尔 关 于 语言 和 言语 区 分 的 理论 的 影响 下 ， 乔 姆 斯 基 提 出 ， 
必须 把 说 具体 语言 的 人 对 这 种 语言 的 内 在 知识 和 他 具体 使 用 语言 的 行 
为 区 别 开 来 ， 并 把 前 者 叫做 语言 能 力 (competence) ， 后 者 叫做 语言 
运用 (performance) 。 我 们 认为 : 乔 姆 斯 基 的 语言 能 力 ， 大 体 上 相当 
于 索 绪 尔 的 语言 ， 乔 姆 斯 基 的 语言 运用 ， 大 体 上 相当 于 索 绪 尔 的 言 


语 。 


在 言语 (或 语言 运用 ) 中 ， 当 我 们 用 语言 来 进行 交际 活动 的 时 
侯 ， 有 的 语言 成 分 使 用 得 多 一 些 ， 有 的 语言 成 分 使 用 得 少 一 些 ， 各 个 
语言 成 分 的 使 用 并 不 是 完全 确定 的 ， 这 种 不 确定 性 ， 殉 是 语言 符号 的 
随机 性 。 我 们 在 学 习 语 言 时 第 向 感 到 语言 规则 中 总 是 有 许多 的 例外 ， 


这 些 例外 ， 就 是 由 于 语言 符号 的 随机 性 造成 的 。 所 以 ， 语 言 符 号 的 随 
机 性 ， 也 应 该 是 语言 的 本 质 属性 之 一 。 


正 因为 语言 符号 具有 随机 性 ， 所 以 我 们 很 难 用 确定 性 的 规则 来 摘 
述 它 。 语 言 使 用 中 大 量 的 例外 现象 使 语法 学 家 们 仿 透 脑筋 ， 有 的 语法 
学 家 甚至 因此 而 误 入 迷津 ， 以 偶 概 全 ， 得 出 了 错误 的 结论 。 


其 实 ， 对 于 言语 活动 这 样 的 随机 现象 来 说 ， 仅 以 十 个 例子 或 十 个 
有 反例 来 作为 某 条 语法 规则 破 或 立 的 标准 ， 看 来 未必 恰当 。 最 好 的 办 法 
还 是 采用 统计 数学 的 方法 来 对 交际 活动 中 所 出 现 的 各 种 语言 现象 进行 
描述 。 如 采 我 们 从 语言 学 理论 的 高 度 ， 把 随机 性 看 成 是 语言 符号 本 号 
的 一 种 目 然 特性 ， 并 采用 恰当 的 数学 工具 来 描述 这 种 随机 性 ， 使 用 计 
算 机 来 进行 一 般 手 工 操作 所 难于 胜任 的 大 量 的 统计 计算 和 分 析 ， 那 
么 ， 我 们 对 于 语法 规则 中 的 各 种 各 样 的 例外 情况 ， 也 融 不 会 再 感到 迷 
惑 不 解 和 束手无策 了 ， 因 为 这 些 例外 的 情况 正 是 由 于 语言 符号 本 身 的 
随机 性 这 一 个 特点 而 形成 的 。 


从 目 然 语言 处 理 的 角度 看 来 ， 在 语言 成 分 的 出 现 这 一 个 随机 事件 
中 ， 随 机 事件 A 与 条 件 组 $ 之 间 虽 然 没 有 完全 确定 的 联系 ， 但 是 ， 它 们 
之 间 却 有 着 统计 上 的 联系 。 尽 管 当 条 件 组 S 实 现 一 次 时 ， 事 件 A 可 能 发 
生 ， 也 可 能 不 发 生 。 但 是 ， 如 果 条 件 组 S 实 现 多 次 ， 事 件 A 的 发 生 吕 有 
着 某 种 规律 性 ， 这 种 规律 性 就 是 统计 规律 性 。 目 然 语言 处 理 认 为 ， 那 
些 无 一 例外 的 必然 的 规律 性 ， 只 不 过 是 这 种 统计 规律 性 的 补充 和 表现 
PASTS 


近年 来 ， 不 少 的 语言 学 家 开始 认识 到 语言 符号 的 这 种 随机 性 ， 目 
觉 地 使 用 统计 方法 来 描述 目 然 语言 现象 ， 这 十 令 人 可 喜 的 。 在 计算 语 
言 学 中 ， 根 据 语言 符号 的 随机 性 ， 已 经 在 计算 机 上 作 了 很 多 统计 工 


作 ， 成 果 素 素 。 我 国学 者 进行 的 汉字 字 频 统计 、 汉 字 部 件 统计 、 汉 字 
笔画 统计 、 书 面 语词 频 统 计 、 汉 字 炳 值 计算 、 汉 字 元 余 度 计 算 、 汉 语 
语 首 统计 、 汉 语 方言 杀 玖 关系 的 分 析 和 统计 ， 为 汉语 的 目 然 语 言 处 理 
研究 提供 了 可 靠 的 统计 结果 ， 推 进 了 我 国 目 然 语言 处 理 研 究 的 发 展 。 
这 些 事实 说 明 ， 一 旦 我 们 在 理论 上 目 觉 地 认识 到 语言 符号 的 随机 性 ， 
束 会 产生 出 巨大 的 物质 力量 。 语 言 学 的 理论 对 于 语言 研究 的 实践 确实 
有 着 重要 的 指导 意义 。 


语料库 语言 学 的 研究 ， 可 以 帮助 我 们 从 大 量 的 经 过 标注 的 语言 素 
材 中 ， 发 现 语言 的 统计 规律 ， 并 将 其 提炼 为 目 然 语言 处 理 的 规则 。 这 
种 研究 生动 地 体现 了 索 绪 尔 所 指出 语言 和 言语 的 相互 关系 。 大 量 的 语 
言 素材 相当 于 索 绪 尔 定义 的 言语 ， 语 言 学 规则 相当 于 索 绪 尔 定 义 的 语 
言 ， 通 过 对 言语 的 统计 人 研究 ， 殊 可 以 发 现 语言 的 规律 。 这 是 语言 符号 
随机 性 的 又 一 佐证 。 
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语言 成 分 在 交际 活动 中 的 出 现 是 一 个 随机 事件 ， 语 言 成 分 之 间 彼 
此 有 着 相 互 的 影响 和 制约 ， 也 融 是 说 ， 前 后 的 语言 符号 具有 相关 性 ， 
我 们 根据 前 面 出 现 的 符号 ， 稼 前 可 以 预测 后 面 的 符号 出 现 的 可 能 性 。 
当 说 话 不 清楚 或 文字 有 错落 时 ， 我 们 往往 可 以 根据 前 后 文 来 理解 话语 
或 文章 的 信义 。 束 是 当 某 个 汉字 或 拉丁 字母 不 清楚 时 ， 我 们 根据 它们 
的 残存 部 分 向 帝 吏 可 以 推断 文字 的 全 形 。 在 有 噪声 或 干扰 时 ， 我 们 仍 
然 有 能 力 根 据 已 经 昕 清楚 的 部 分 来 识别 那些 不 清晰 的 语音 。 这 些 事实 
说 明 ， 并 不 是 语言 中 的 一 切 成 分 对 于 传达 语言 符号 整体 所 包含 的 信息 


都 是 绝对 不 可 缺少 的 ， 就 古 缺 少 了 某 些 部 分 ， 语 言 本 映 有 能 力 把 这 些 
缺少 的 部 分 补充 和 恢复 出 来 。 这 意味 着 ， 语 言 符号 具有 元 余 性 。 这 种 
隐 余 性 是 必要 的 和 有 益 的 ， 它 保证 了 不 理想 的 环境 下 (如 书面 文章 中 
有 遗漏 ， 谈 话 时 有 了 嘲 杂 声 ， 书 写 的 字母 不 清楚 ， 发 首 不 清晰 ，， 仍 能 
发 挥 其 交际 功能 。 因 此 ， 我 们 不 能 认为 元 余 度 束 真 的 是 语言 中 “元 
余 ” 的 或 不 必要 的 东西 。 人 恰恰 相 反 ， 这 种 元 余 度 是 语言 传递 信息 时 必 不 
可 少 的 。 没 有 元 余 度 的 语言 在 实际 上 是 无 法 理解 的 ， 因 为 日 常 语言 总 
有 很 大 的 灵活 性 ， 要 想 理解 句子 的 意思 ， 驳 必须 考虑 到 字母 在 单词 中 
的 位 置 和 单词 在 句子 中 的 上 下 文 关系 。 我 国 闭 名 语言 学 家 李 采 教授 建 
议 把 “ 见 余 度 ” 改 为 “ 辫 余 度 ”， 这 是 很 有 道理 的 。 事 实 上 ， 只 要 语言 
结构 性 就 会 有 见 余 度 ， 语 言 符 号 的 见 余 度 就 是 语言 的 结构 性 在 语言 使 
用 过 程 中 的 体现 。 这 样 看 来 ,语言 符 号 的 见 余 性 也 应 该 是 语言 符号 的 
一 个 重要 特性 ， 它 与 语言 符号 的 随机 性 一 样 ， 无 时 无 刻 不 在 语言 的 使 
用 中 表现 出 来 。 


自然 语言 处 理 已 经 根据 各 种 言语 统计 的 结果 ， 计 算出 世界 上 许多 
种 语言 的 风 余 度 。 现 在 世界 上 各 种 语言 的 见 余 度 中 ， 计 算得 比较 精确 
的 是 英语 。 柏 登 (N. Burton) 和 里 克 里 德 (J. Licklider) 两 人 通过 大 
量 的 计算 求 出 ， 现 语 书 面 语 的 见 余 度 在 67% 到 80% 之 间 。 汉 字 是 一 个 
大 字符 集 ， 要 直接 计算 汉语 书面 语 的 见 余 度 ， 其 工作 量 是 非常 大 的 ， 
所 以 至 今 为 止 ， 我 们 还 不 能 直接 来 计算 汉语 书面 语 的 元 余 度 ， 只 有 通 
过 间接 的 方法 来 估算 。 我 国 计 算 语言 学 研究 者 现 已 估算 出 汉语 书面 语 
的 元 余 度 在 56% 与 74% 之 间 ， 其 平均 值 约 为 65%。 可 以 看 出 ， 汉 语 书面 
语 的 元 余 度 ， 其 上 下 限 都 略 低 于 英语 书面 语 的 元 余 度 。 


汉语 的 宛 余 度 比 英语 低 一 些 ， 说 明 汉语 比 英语 "简练" 一些， 而 “ 难 
介 " 一 些 。 所 亩 “简练 "一 些 ， 就 是 对 同一 篇 文章 ， 中 文 将 比 英文 短 一 


些 ， 而 所 请 “ 难 懂 ”一 些 ， 束 是 指 从 平均 的 角度 看 ， 文 草 中 对 于 同样 长 
的 字母 序列 ， 在 语义 方面 给 和 人们 的 预示 能 力 差 一 些 ， 或 者 说 ， 它 的 语 
义 更 难 提 措 一 些 ， 语 义 的 不 肯定 性 程度 更 大 一 些 。 目 然 语言 处 理 的 这 
些 研 究 成 采 ， 与 我 们 对 于 汉语 和 英语 的 实际 体会 是 一 致 的 。 这 说 明 ， 
目 然 语 言 处 理 对 于 语言 从 号 的 见 余 性 的 认识 是 正确 的 。 


第 七 ， 语 言 符号 的 模糊 性 


索 绪 尔 完全 没有 认识 到 语言 符 
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号 具有 模糊 性 。 他 在 《普通 语言 学 
教程 》 中 写 道 : “从 心理 方面 看 ， 思 想 离 开 了 词 的 表达 ， 只 是 一 团 没 有 
定形 的 、 模 糊 不 清 的 浑然 之 物 。 哲 学 家 和 语言 学 家 常 一致 承认 ， 没 有 
符号 的 帮助 ， 我 们 就 没 法 清楚 地 、 坚 实地 区 分 两 个 观念 。 思 想 本 身 好 
像 一 团 星云 ， 其 中 没有 必然 划 定 的 界限 。 预 先 确 定 的 观念 是 没有 的 。 
在 语言 出 现 之 前 ， 一 切 都 是 模糊 不 清 的 。?” 他 又 说 , “语言 对 思想 所 起 
的 独特 作用 不 是 为 表达 观念 而 创造 一 种 物质 的 声音 手段 ， 而 是 作为 思 
想 和 声音 的 媒介 ， 使 它们 的 结合 必然 导致 各 单位 之 间 彼 此 划 清 界 
限 。”( 索 绪 尔 ， 中 译本 ，1980) 


显而易见 ， 索 绪 尔 认为 ， 正 是 由 于 语言 的 作用 ， 才 使 模糊 的 思想 
和 声音 的 各 个 单位 之 间 清 晰 起 来 。 在 索 绪 尔 看 来 ， 语 言 本 喘 是 谈 不 上 
模糊 性 的 。 


关于 语言 的 模糊 性 问题 ， 在 目 然 语言 的 计算 机 处 理 出 现 之 前 ， 整 
有 不 少 学 者 进行 过 探索 和 研究 。 英 国 著 名 哲学 家 罗素 (B. Russell) 于 
1923 年 写 过 一 篇 《 论 模糊 性 》 的 论文 。 


他 指出 : “整个 语言 都 或 多 或 少 是 模糊 的 。” 并 且 举 例 论 证 了 这 个 
问题 “由 于 颜色 构成 一 个 连续 统 ， 因 此 闫 色 有 深 有 浅 ， 对 于 这 些 深 小 
不 同 的 颜色 ， 我 们 就 拿 不 准 是 否 把 它 称 为 红色 。 这 不 是 因为 我 们 不 知 
道 ' 红 色 ' 这 个 词 的 意义 ， 而 是 因为 这 个 词 的 使 用 范围 在 本 质 上 是 不 确 
定 的 。 这 目 伏 也 旦 对 人 变 成 秃子 这 个 古老 之 谜 的 回答 。 假 定 一 开始 他 
不 是 郝 于 ， 他 的 头发 一 根 根 地 有 脱落， 最 后 才 变 成 和 了 于。 于 是 有 人 和 争辩 
说 ， 一 定 有 一 根 头 发 ， 由 于 这 根 头 发 的 脱落 ， 便 使 他 变 成 秃 于 。 这 种 
说 法 目 然 是 元 唐 的 。 秃 头 是 一 个 模糊 概念 ， 有 一 些 人 肯定 是 秃 于 ， 有 
一 些 人 肯定 不 是 项 于， 而 处 于 这 两 者 之 间 的 一 些 人 ， 说 他 们 儿 定 要 人 么 
征 邯 子 ， 要 么 不 是 ， 这 走 不 对 的 。 排 中 律 用 于 精确 符号 时 是 正确 的 ; 
但 是 当 符号 模糊 的 时 候 ， 排 中 律 束 不 运用 了 。 事 实 上 ， 所 有 的 符号 都 
是 模 糊 的 。 所 有 描述 感觉 特性 的 词 ， 都 具有 :红色 ”这 个 词 所 具有 的 同 
样 的 模糊 性 。” (罗素 ， 中 译本 ，1990) 。 罗 素 这 篇 论文 对 传统 逻辑 学 
中 的 排 中 律 提 出 挑战 ， 从 哲学 和 逻辑 学 上 为 模糊 理论 页 定 了 基础 。 


1933 年 ， 美 国语 言 学 家 布 龙 菲 尔 德 (L. Bloomfield) 在 《语言 
论 》 一 书 中 ， 也 指出 了 目 然 语言 中 存在 着 模糊 现象 。 


他 说 :“ 我 们 可 以 根据 化 学 或 矿物 学 来 给 矿物 的 名 称 下 定义 ， 正 如 
我 们 说 ' 盐 ' 这 个 词 的 一 般 的 意义 是 “ 毛 化 钠 : (NaCl) ， 我 们 也 可 以 用 植 
物 学 或 者 动物 学 的 术语 来 给 植物 或 者 动物 的 名 称 下 定义 ， 可 是 我 们 没 
有 一 种 准确 的 方法 来 给 像 ' 爱 :或 者 ' 恨 ' 这 样 一 些 词 下 定义 ， 这 样 一 些 词 
涉及 到 好 些 还 没有 准确 地 加 以 分 类 的 环境 一 一 而 这 些 难 以 确定 意义 的 
词 在 词汇 里 占 了 绝 大 多 数 。” 他 进一步 指出 :“ 此 外 ， 即 使 我 们 有 一 些 
科学 的 〈 也 就 是 普遍 被 承认 的 而 又 不 准确 的 ) 分 类 ， 我 们 也 还 往往 发 
现 语言 里 的 意义 跟 这 种 分 类 并 不 一 致 。”( 布 龙 菲 尔 德 ， 中 译本 ， 
1980) 


这 些 研 究 都 指出 了 目 然 语言 里 存在 的 模糊 现象 。 直到 1965 年 ， 闭 
名 数学 家 碍 德 (L. A. Zadeh) 发 表 了 《模糊 集合 》 的 著名 论文 后 ， 模 
糊 性 的 概念 才 第 一 次 找到 了 完善 的 表示 方法 。 他 的 研究 是 首先 从 观察 
语言 符号 的 模糊 性 开始 的 。 例 如 ,，“ 老 年 ”这 个 概念 就 具 有 模糊 性 。 七 
bo RRA EE? WRA, 那么 ， 六 十 岁 算 不 算 “ 老 年 ”? APSE 
不 算 “ 老 年 ”? 这 是 很 难 精确 地 回答 的 。 查 德 把 “老年 "看 成 是 建立 在 “年 
龄 ”这 个 论 域 上 的 集合 ， 而 把 七 十 岁 、 六 十 岁 、 卫 十 岁 痢 看 成 这 个 集合 
中 的 元 素 ， 这 样 ， 束 可 以 研究 这 些 元 素 相对 于 “老年 ”这 个 集合 的 隶属 
关系 。 这 种 隶属 关系 ， 很 难 用 经 典 集合 论 中 的 “属于 ”或 “不 属于 ” 某 个 
集合 的 办 法 来 描述 ， 而 可 以 用 在 多 大 程度 上 属于 某 个 集合 的 办 法 来 描 
述 。 也 就 是 说 ， 一 个 模糊 集合 S 的 特征 ， 是 存在 奢 一 个 隶属 钞 数 H， 对 
于 论 域 中 的 每 一 个 元 素 X， 都 有 一 个 确定 的 值 h QU) ， 这 个 值 刻画 着 
元 素 x 隶 属于 模糊 集合 S 的 程度 。Zadeh 把 普通 集 拓 广 为 模 糊 集 ， 为 模 
糊 数学 葛 定 了 基础 ， 这 一 开创 性 的 工作 不 仅 拓 广 了 普通 数学 的 研究 领 
域 ， 而 且 开 辟 了 在 软 、 硬 科学 (包括 语言 学 中 提高 数学 适用 性 的 广 
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完 目 然 语 言 中 的 各 种 模糊 现象 开始 的 。 碍 德 本 人 在 《模糊 集 》 一 文中 
曾 明确 地 说 明 : “模糊 集合 论 的 这 个 分 文 的 起 产 是 从 语言 学 方法 的 引入 
开始 的 ， 它 转 而 又 推动 了 模糊 逻辑 的 发 展 .…... 在 即将 到 来 的 时 代 ， 我 
相信 近似 推理 和 模糊 逻辑 将 发 展 成 为 一 个 重要 领域 ， 从 而 变 成 研究 哲 
学 、 语 言 学 、 心 理学 、 社 会 学 、 管 理科 学 、 医 学 诊断 、 判 别 分 析 以 及 
其 它 领 域 的 新 方法 的 基础 。” ( 查 德 ， 中 译本 ，1981) 模糊 语言 的 研究 
已 引起 了 语言 学 家 们 的 浓厚 兴趣 。1972 年 在 美国 纽约 举行 的 词典 学 国 
际 讨论 会 上 ， 美 国语 言 学 家 雷 柯 夫 (G. Lakoff) 作 了 一 个 在 词汇 研究 
方面 应 用 模糊 数学 的 报告 。 雷 柯 夫 高 兴 地 说 : “我 们 现在 有 了 一 个 “可 


爱 的 术语 ' 一 一 模糊 集合 "。 他 在 讨论 会 结束 时 又 指出 ， 模 糊 性 将 成 为 
语言 学 研究 的 一 个 主要 领域 。 


语言 符号 的 模糊 性 不 仅 存 在 于 单词 的 售 义 方面 ， 语 法 方面 也 存在 
着 模糊 性 。 例 如 ， 许 多 语言 中 动词 和 名 词 的 划 界 并 不 十 分 清楚 ， 存 在 
着 “ 亦 此 亦 彼 ” 的 现象 ， 也 就 是 说 ,动词 和 名 词 的 划 界 钙 模 糊 的 。 美 国 
语言 学 家 洛斯 (Ross) 提出 了 “ 动 /名 连续 统 模型 ”， 以 此 描述 英语 中 动 
词 和 名 词 的 划 界 问题 。 在 连续 统 的 两 端 分 别 是 纯 动词 和 物质 名 词 ， 它 
们 的 界线 是 截然 分 明 的 。 但 古 在 这 个 连续 统 两 端的 中 间 ， 则 存在 着 一 
系列 界线 模糊 的 过 渡 类 ， 可 图 示 如 下 : 


动词 性 增加 a --> 名 词性 增加 
NS 一 | 一 一 

纯 cut hope floor 物 

3j dd house Wi 

i sit chair 名 

hand is 


图 1.12 ”英语 中 的 动词 “名 词 连 续 统 


可 以 看 出 ， 处 于 连续 统 中 间 的 hope (AE) 这 个 词 ， 兼 具 动词 和 
名 词 的 特点 ， 表 现 了 在 词类 归属 上 的 模糊 性 。 英 语 中 的 很 多 词 ， 都 可 
以 根据 它们 在 性 质 上 的 差异 来 确定 它们 在 连续 统 上 的 位 置 。 最 近 有 学 
者 采用 这 个 “ 动 /名 连续 统 模型 "来 解决 汉语 的 动词 和 名 词 的 分 界 问题 ， 
取得 了 较 满 意 的 结果 。 


在 目 然 语 言 处 理 中 ， 目 然 语 言 的 表达 和 理解 拉 术 是 一 个 十 分 困难 
的 问题 。 学 者 们 已 经 认识 到 ， 这 个 问题 比 他 们 原来 预料 的 更 加 艰难 ， 
美国 国会 技术 评价 办 公 室 最 近 指 出 ， 要 使 计算 机 具备 一 个 五 乡 小 孩 的 
目 然 语 言 理解 能 力 说 不 定 是 二 十 年 以 后 的 事 。 目 然 语言 的 表达 和 理解 


的 主要 困难 在 于 目 然 语言 本 吴 的 模糊 性 。 这 种 困难 的 内 在 原因 征 我 们 
对 于 人 类 如 何 贮存 和 处 理 模糊 信息 的 机 制 还 不 十 分 清楚 ， 外 在 原因 是 
我 们 还 没有 一 种 适合 于 处 理 目 然 语言 的 模糊 信息 的 工具 。 由 模糊 数学 
创始 人 查 德 亲 目 开 拓 的 可 能 性 理论 、 模 糊 语言 方法 以 及 由 此 而 产生 的 
模糊 语言 逻辑 、 目 然 语 言语 义 表达 和 近似 推理 ， 已 经 构成 一 个 知识 分 
Xx. 正在 把 殉 服 上 述 目 然 语言 理解 和 表达 技术 中 的 困难 当 作 目 己 的 人 研 
究 目 标 ， 目 前 已 取得 了 令 人 辟 舞 的 成 果 。 可 见 ， 目 然 语言 处 理 的 研究 
将 会 推动 我 们 更 加 深入 地 探讨 语言 符号 的 模糊 性 问题 。 


的 模糊 性 与 语言 符号 的 随机 性 是 两 个 不 同 的 概念 。 


语言 符 


号 
前 面 说 过 的 语言 符号 的 随机 性 是 指 事件 的 发 生 与 否 而 言 ， 但 事件 
本 喘 的 含义 是 确定 的 ， 由 于 条 件 不 充分 ， 事 件 的 发 生 与 否 有 多 种 可 能 
HE, 在 [0,1] 上 取 值 的 概率 分 布 函 数 就 是 描述 这 种 随机 性 的 ， 它 经 党 
表现 为 字符 或 单词 出 现 概率 的 大 小 。 


语言 符号 的 模糊 性 十 指 元 素 对 集合 的 隶属 关系 而 言 ， 事 件 本 里 的 
含义 是 不 确定 的 ， 但 事件 发 生 与 否 是 可 以 确定 的 ， 因 而 元 素 (事件 ) 
对 集合 的 隶属 关系 是 不 确定 的 ,在 [0,1] 上 取 值 的 隶属 函数 就 是 描写 
这 种 不 确定 性 ( 即 模糊 性 ) 的 ， 它 经 常 表现 为 单词 含义 对 某 一 集合 
属 函 数值 的 大 小 。 


语言 符号 的 随机 性 放弃 了 “一 因 一 采 ” 的 决定 论 ， 有 反映 了 “一 因 多 
果 ” 的 规律 性 ， 因 此 ， 它 是 由 于 因 末 律 破 缺 而 造成 的 一 种 不 确定 性 ， 在 
用 统计 方法 来 摘 述 目 然 语言 时 ， 有 是 满足 排 中 律 的 。 


语言 符号 的 模糊 性 摆脱 了 * 非 此 即 彼 ”的 确定 性 ， 反 映 了 “ 亦 此 亦 
彼 ” 的 规律 性 ， 因 此 ， 写 是 由 于 排 中 律 破 缺 而 造成 的 一 种 不 确定 性 。 


研究 语言 符号 的 随机 性 ， 可 以 把 语言 学 的 领域 从 必然 现象 扩大 到 
偶然 现象 ， 人 研究 语言 的 模糊 性 ， 可 以 把 语言 学 的 研究 领域 从 清晰 现象 
扩大 到 模糊 现象 。 因此 ， 语 言 符号 随机 性 和 模糊 性 的 发 现 ， 都 加 深 了 
我 们 对 于 语言 符号 本 质 的 认识 ， 拓 宽 了 语言 学 的 研究 领域 。 
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性 、 模 糊 性 等 七 个 特性 也 坪 语 言 符号 十 分 重要 的 特性 。 索 绪 尔 提出 的 
语言 符号 的 线条 性 可 以 用 更 为 深刻 的 层次 性 来 代 蔡 ， 而 他 提出 的 语言 
符号 的 任意 性 ， 确 实 是 “头等 重要 的 ”`\“ 文 配 着 整个 语言 学 ?的 原则 。 
因此 ， 我 们 认为 ， 语 言 符号 的 特性 除了 上 述 的 七 特性 之 外 ， 还 应 该 加 
上 任意 性 ， 这 样 ， 语 言 符 号 就 具有 任意 性 、 层 次 性 、 非 单元 性 、 离 散 
性 、 递 归 性 、 随 机 性 、 元 余 性 、 模 糊 性 等 共 八 个 特性 。 目 然 语言 处 理 
的 发 展 ， 使 我 们 对 于 语言 符号 的 这 些 特性 的 认识 和 理解 更 为 丰富、 更 
为 深刻 了 。 在 这 种 情况 下 ， 我 们 不 得 不 修正 索 绪 尔 理论 中 已 经 过 时 的 
部 分 ， 而 代 之 以 反映 当前 人 类 对 目 然 语言 符号 认识 水 乎 的 新 理论 。 这 
征 目 然 语言 处 理 在 普通 语言 学 的 基本 理论 方面 对 理论 语言 学 提出 的 挑 
战 。 


语言 符号 的 任意 性 ， 也 就 古语 言 符 号 的 社会 约定 性 ， 它 反映 了 语 
塞 符 号 的 社会 一 人 文 的 本 质 ， 这 使 我 们 有 可 能 用 社会 科学 的 方法 来 研 
守 语 言 。 语 言 符 号 的 层次 性 、 非 单元 性 、 离 知性 、 弟 归 性 、 随 机 性 、 
见 余 性 反映 了 语言 符号 的 物质 一 目 然 的 本 质 ， 这 使 我 们 有 可 能 用 目 然 
科学 的 方法 来 研究 语言 。 而 语言 符号 的 模糊 性 ， 则 表现 了 人 类 心 养活 
动 和 思维 活动 的 特点， 反映 了 语言 符号 的 智能 一 心理 的 本 质 ， 这 使 我 
们 有 可 能 用 思维 科学 的 方法 来 研究 语言 。 这 样 ， 原 来 作为 纯粹 人 文科 
学 的 语言 学 ， 在 计算 机 时 代 便 大 大 地 拓 广 了 它 的 研究 领域 ,使 它 同 时 
跨 着 人 文科 学 、 目 然 科 学 和 思维 科学 三 个 领域 。 


法 国 著名 数学 家 阿达 玛 (J. Hadamard) 曾经 说 过 : “语言 学 是 数学 
和 人 文科 学 之 间 的 桥架 。?” 今 天 ， 我 们 可 以 进一步 说 : “语言 学 是 目 然 
科学 、 思 维 科 学 和 人 文科 学 之 则 的 桥梁 。” 一 同 被 人 们 看 成 是 冷门 的 语 
言 学 ， 现 在 已 经 改变 了 它 在 整个 现代 科学 体系 中 的 地 位 ， 正 在 成 长 为 
一 门 带头 的 科学 ， 成 为 现代 科学 技术 人 研究 的 一 个 热点 。 连 许多 计算 机 
专家 也 认为 ， 电 子 计算 机 软件 也 可 以 看 成 是 一 种 语言 文字 工作 ， 这 有 是 
每 一 个 语言 文字 工作 者 应 该 引 以 为 宋 的 。 
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第 二 章 ”词汇 目 动 处 理 
第 一 节 ”词汇 是 语言 的 建筑 材料 


英国 功能 语言 学 的 呐 基 人 弗 斯 认为 ， 词 汇 是 语言 描述 的 中 心 。1957 
年 ， 弗 斯 首先 提出 了 搭配 和 类 连接 理论 ， 在 某 种 程度 上 将 词汇 内 容 从 语 
法 和 语义 学 中 分 离 出 来 。 


弗 斯 指出 ， 所 谓 “ 搭 配 ” (collocation) ， 是 指 某 些 词 常常 跟 某 些 词 
一 起 使 用 。 他 认为 , “意义 取决 于 搭配 ?是 组 合 平面 上 的 一 种 抽象 ， 它 和 
从 “概念 ”上 或 “思维 > 上 分 析 词义 的 方法 没有 直接 的 联系 。night (EHE) 
的 意义 之 一 是 和 dark) (GEH) 的 搭配 关系 ， 而 dark 的 意义 之 一 自然 也 
是 和 night 的 搭配 关系 。 山 cow (AEF) 是 常常 和 动词 to milk ( 挤 牛奶 ) 
一 起 使 用 的 。 这 两 个 词 往 往 这 样 搭配 : They are milking the cows (他 们 
给 母 牛 挤 奶 ) ，Cows give milk 〈 母 牛 提供 牛奶 ) ° Æ, tigress (AE 
虎 ) 或 lioness (HIF) 就 不 会 和 to milk 搭 配 ， 讲 英语 的 人 不 会 说 ” 
They are milking the tigresses ， 或 ”Tigresses give milk。 由 此 可 见 ， 在 拱 
配 时 ，cow 的 形式 意义 与 tigress 和 1lioness 不 同 。 在 搭配 中 ， 词 汇 意义 起 着 
主要 的 作用 。 


之 后 数 十 年 ， 新 弗 斯 学 者 始终 坚持 以 词汇 研究 为 中 心 ， 强 调 词汇 与 
语法 的 辩证 关系 ， 深 入 发 展 了 弗 斯 的 词汇 理论 。 


19664, tL fs (Halliday) 提出 词汇 不 是 用 来 填充 语法 确定 的 一 
Bf” (slots) ， 而 是 一 个 独立 的 语言 学 层面 ， 词 汇 研 究 可 以 作为 对 
语法 理论 的 补充 ， 却 不 是 语法 理论 的 一 部 分 ， 他 主张 把 词汇 从 语法 研究 
中 独立 地 分 离 出 来 。 


近 些 年 来 ,语料库 证 据 支 持 的 词汇 学 研究 莲 动 发 展 ， 越 来 越 多 的 实 
证 研究 表明 ， 词 汇 和 语法 在 实现 意义 时 是 交织 一 起 的 ， 必 须 整 合 描 述 。 
词汇 是 话语 实现 的 主要 载体 ， 语 法 则 起 到 管理 意义 、 组 合成 份 和 构筑 词 
项 的 作用 。 生 成 语法 学 者 史密斯 甚至 认为 “词汇 是 语言 间 所 有 差异 的 潜 
在 所 在 。 排 除 词汇 差异 这 一 因素 ， 人 类 的 语言 只 有 一 种 Bl 


根据 还 原 主义 者 (reductionist) 的 观点 ， 近 百年 来 自然 科学 发 展 的 
历史 可 以 看 成 是 探索 如 何 使 用 较 小 “ 基 原 ”(primitives) 的 行为 结合 起 来 
解释 较 大 “结构 ” (structure) 的 行为 的 历史 。 在 生物 学 中 ， 遗 传 的 性 质 
用 基因 的 行为 来 解释 ， 而 基因 的 性 质 用 脱氧 核糖 核酸 (DNA) 的 行为 来 
解释 。 在 物理 学 中 ， 物 质 被 还 原 为 原子 ， 而 原子 义 被 还 原 为 比 原子 更 小 
的 粒子 。 


在 语言 学 中 ， 也 逃 不 出 这 种 还 原 主义 思想 的 影响 。 语 言 学 家 可 以 使 
用 语法 范畴 构成 诸如 S~ NP VP 这 样 的 语法 规则 ， 把 $ 看 成 是 由 NP 和 VP 
组 成 的 ， 或 者 把 S 还 原 为 NP 和 VP， 再 把 NP 和 VP 还 原 成 具体 的 单词 。 


所 有 这 些 都 可 以 把 客观 事物 (object) 想象 成 是 由 某 些 特征 关联 而 
成 的 复杂 特征 的 集合 。 在 这 些 特征 中 的 信息 用 约束 (constraints) 来 表 
示 ， 所 以 这 一 类 的 模型 通常 叫做 “基于 约束 的 形式 化 方法 ” (constraint- 


based formalism) 。 


1900 年 ， 实 验 心 理学 的 英 基 人 温 德 (Wilhelm Wundt) 在 《大 众 心 
理学 》  (Volkerpsychologie ) 一 书 中 曾经 给 句子 下 过 这 样 的 定义 : 


“Den sprachlichen Ausdruck für die willkürliche Gliederung einer 
Gesammtvorstellung in ihre logische Beziehung zueinander gesetzten 


Bestandteil." 
我 把 这 句 德 文 翻译 为 如 下 的 中 文 : 


“句子 是 把 完整 的 思想 任意 分 为 它 的 组 成 成 分 并 把 它们 置 于 过 
辑 关系 之 中 的 语言 表示 。，” 


瘟 德 的 这 段 话 可 能 是 把 句子 分 割 为 成 分 层次 这 种 还 原 主义 思想 的 最 
Heli o 


后 来 ， 布 龙 菲 尔 德 在 他 早期 的 著作 《语言 研究 导论 》 (An 
Introduction to the Study of Language , 1914) 中 将 温 德 关于 组 成 性 的 思 
想 引 入 了 语言 学 。1933 年 在 他 的 著作 《语言 论 》 (Language) 发 表 以 
Jn, “直接 成 分 分 析 法 ”(immediate-constituent analysis) 成 为 美国 结构 
主义 语言 学 研究 中 的 相当 完善 的 方法 。 


从 古典 时 期 开始 的 传统 的 欧洲 语法 着 重 研 究 如 何 确 定单 词 

(words) 之 间 的 关系 ， 而 不 是 研究 确定 成 分 (constituents) 之 间 的 关 

系 。 欧 洲 的 句法 学 家 们 在 诸如 依存 语法 (dependency grammar) 等 形式 
语法 中 ， 强 调 以 词 为 基础 。 


不 论 是 以 成 分 为 基础 还 是 以 词 为 基础 ， 从 实质 上 说 来 ， 这 些 语言 学 
研究 的 理论 基础 都 是 “还 原 主义 ” (reductionism) 


从 词汇 语义 组 成 的 角度 ， 弗 雷 格 (Frege) 提出 了 “组 成 性 原 
Wl" (compositionality principle) 。 弗 雷 格 指出 ， 句 子 的 意义 是 由 组 成 它 
的 各 个 成 分 的 意义 组 合 而 成 的 ， 组 成 成 分 的 意义 决定 了 整个 句子 的 意 
义 ， 组 成 成 分 的 意义 是 句子 的 意义 的 函数 。“ 组 成 性 原则 ?成 为 了 句法 语 


义 分 析 的 一 个 基本 的 方法 论 原则 ， 又 叫做 * 弗 雷 格 原则 ”《〈Frege 
Principle) o 


不 论 从 还 原 主 义 的 角度 看 ， 还 是 从 组 成 性 原则 的 角度 看 ， 词 汇 都 是 


组 成 句子 的 基本 成 分 ， 词 汇 是 语言 的 建筑 材料 ， 有 是 话语 实现 的 主要 载 
体 ， 而 语法 的 作用 则 是 把 词汇 加 以 组 合 ， 构 宽 更 大 的 组 合成 分 。 


单词 本 号 的 语义 信息 是 很 重要 的 ， 根 据 “ 还 原 主 义 ”， 句 子 的 句法 成 
分 可 以 还 原 成 单词 根据“ 组 成 性 原则 ”， 句 子 的 语义 是 由 构成 该 句子 的 
单词 的 语义 以 及 这 些 单词 之 间 的 语义 关系 组 成 的 。 因 此 ， 词 汇 的 分 析 和 
描述 对 于 上 自然 语言 处 理 是 至 关 重 要 的 ， 我 们 应 当 应 该 重视 词汇 的 研究 ， 
善于 从 词汇 中 发 现 语言 现象 后 面 隐藏 着 的 内 在 规律 。 


美国 经 济 学 家 莱 维 特 (Levit) 和 记者 杜 布 尼 (Dubner) 在 2005 年 
出 版 的 Freakonomics 〈《 魔 时 经 济 学 》， 这 是 一 本 畅销 书 ， 发 行 数 百 万 
Wt) 一 书 中 说 明 ， 在 不 动产 的 广告 中 ， 使 用 线性 回归 可 以 用 来 很 好 地 预 
测 房 屋 在 出 售 时 的 价格 是 高 于 还 是 低 于 要 求 的 价格 。 他 们 说 明 ， 如 果 在 
英文 的 不 动产 广告 中 出 现 “fantastic ORT) ，cute GE A EAE) ， 或 
charming (迷人 ) ”这 些 词语 ， 房 屋 出 售 的 价格 就 往往 会 低 一 些 ， 如 果 在 
英文 的 不 动产 广告 中 出 现 “maple ( 枫 树 ) ，granite 〈 花 岗 石 ) ”这 样 的 词 
语 ， 房 屋 出 售 的 价格 束 往 往 会 高 一 些 。 他 们 假定 ， 房 地 产 经 纪 人 使 用 诸 
如 “fantastic (好 极 了 ) ”这 样 侣 义 模糊 的 词语 来 掩盖 房屋 中 某 些 质量 方面 
的 缺陷 。 为 了 便于 讲解 ， 我 们 编 出 了 下 表 中 的 一 些 数 据 : 


模糊 形容 词 的 数目 # Bi Fg i BERE eg FRKA B AC 


4 0 
3 $1 000 
2 $1 500 
2 $6 000 
1 $14 000 


0 $18 000 
表 1 ”在 不 动产 广告 中 ， 模 糊 形 容 词 的 数量 (fantastic, cute, charming) 与 房屋 出 售 时 高 于 要 求 价 


格 的 数量 之 间 的 关系 的 数据 ， 这 些 数据 是 为 了 便于 讲解 编 出 来 的 ， 并 非 实际 调查 的 结果 。 


下 面 用 图 示 对 这 种 情况 加 以 说 明 ，x 轴 表示 特征 (模糊 形容 词 的 数 
E) ，y 轴 表示 价格 。 我 们 还 绘 出 了 与 观察 数据 拟 合 得 很 好 的 回归 线 
(regression line) 。 任 何 一 条 直线 的 方程 是 


y= mx+b, 
如 图 中 所 示 ， 直 线 的 斜率 m = -4900， 截 距 为 b = 16550 ° 
方程 为 


y = -4900x + 16550 
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图 2.1 


民 据 上 


看 表 中 编 出 的 于 


Number of Adjectives 


p 些 点 的 数据 给 


出 的 


图 ， 方 程 为 y = -4900x + 16550 ° 


我 们 可 以 想见 ， 这 条 直线 的 两 个 参数 (斜率 m 和 截 距 bp) 可 以 看 成 是 


我 们 用 来 把 特征 〈 在 这 种 情况 为 x， 形 容 词 的 数量 ) 映射 到 输出 值 y (在 
这 种 情况 为 价格 ) 的 权 值 的 集合 。 我 们 可 以 使 用 w 代 表 权 值 ， 把 这 个 线 


性 方程 表示 如 下 : 


Price = w0 + wl” Num_Adjectives 


这 样 一 来 ， 我 们 就 可 以 使 用 线性 方程 从 这 些 形 容 词 的 数量 来 估计 房 


屋 的 售 价 。 例 如 ， 如 果 广 告 中 出 现 5 个 形容 词 ， 我 们 可 以 预测 出 房屋 可 
以 售 多 少 价钱 。 


如 采 我 们 使 用 一 个 以 上 的 特征 ， 那 么 ， 线 性 模型 的 能 力 束 会 真正 强 


大 起 来 ， 这 种 使 用 多 个 特征 的 线性 回归 叫做 多 元 线性 回归 (multiple 


linear regression) 。 


房屋 的 最 终 价 格 大 概 还 依赖 于 很 多 其 他 的 因素 ， 例 如 ， 当 前 的 房屋 
抵押 率 、 市 场 上 未 售 房 屋 的 数量 ， 等 等 。 我 们 可 以 把 这 些 因素 作为 变量 
来 进行 编码 ， 每 一 个 因素 的 重要 程度 就 是 这 些 变 量 的 权重 ， 如 下 面 的 方 
程 所 示 : 


价格 = w tw, 形容 词 数量 + wy” 抵押 率 + ws” 未 售 房 屋 数 量 


在 自然 语言 处 理 中 ， 我 们 常常 把 像 “ 形 容 词 的 数量 ”或 “抵押 率 ” 这 样 
的 用 于 预测 的 因素 叫做 特征 (feature) 。 我 们 用 这 些 特征 的 矢量 来 表示 
每 一 个 观察 (每 一 套 待 售 的 房屋 ) 。 假 定 一 套房 屋 在 广告 中 有 一 个 形容 
词 ， 并 且 抵 押 率 为 65， 在 该 城市 中 有 10.000 套 未 售 房 屋 ， 那 么 ， 该 房屋 
的 特征 矢量 就 是 f = (1, 6.5, 10000) 。 假 定 我 们 已 经 从 这 项 工作 中 
学 习 到 的 加 权 量 为 
w = (w, w, w,, w,) = (18000, -5000, -3000, -1.8) 
。 这 样 ， 这 套房 屋 的 预测 价格 的 值 就 采用 把 每 一 个 特征 与 它们 的 加 权 相 
乘 的 方法 来 计算 : 


N 
price = w, + ) w. X f. 
pc 
由 此 可 见 ， 词 汇 中 包含 着 非常 丰富 的 内 容 ， 从 中 我 们 可 以 发 现 挖 所 
出 很 多 知识 来 。 词 汇 的 自动 处 理 是 非常 有 使 用 价值 的 。 


Bo ”正则 表达 式 


1951 年 ， 克 林 (Kleene) 定义 了 有 限 自动 机 和 正则 表达 式 (regular 
expression ， 简 称 RE) ， 并 且 证 明了 二 者 的 等 价 性 。 汤 姆 生 (Ken 
Thompson) 是 首先 研制 正则 表达 式 编 译 器 的 学 者 之 一 ，1968 年 ， 他 把 正 
则 表达 式 编 译 器 用 于 文本 搜索 。 他 的 文本 搜索 编辑 器 ed 包含 一 
个 “g/regular expression/p” 的 命令 ， 或 者 叫做 通用 正则 表达 式 打印 命令 ， 
后 来 变 成 JUNIX grep ° 


在 本 节 中 ， 我 们 将 介绍 正则 表达 式 ， 正 则 表达 式 是 描述 文本 序列 的 
标准 记录 方式 。 在 词汇 自动 处 理 的 各 种 类 型 的 应 用 中 ， 都 使 用 正则 表达 
式 来 描述 文本 中 的 符号 串 ， 正 则 表达 式 在 词汇 目 动 处 理 中 起 着 重要 的 作 
用 。 


假定 你 是 美洲 旱 猎 woodchucks) 的 爱好 者 ， 并 且 你 知道 
groundhog 和 woodchuck 是 同一 个 动物 的 不 同名 称 。 如 有 果 现 在 你 正在 写 一 
篇 关于 woodchucks 这 个 术语 的 论文 ， 你 需要 把 论文 中 所 有 的 woodchucks 
这 个 术语 都 搜索 出 来 ， 并 且 用 woodchucks (groundhogs) 2E #5 
woodchucks， 同 时 ， 你 也 需要 用 单数 形式 的 woodchuck (groundhog) 来 
替换 单数 形式 的 woodchuck。 但 是 你 不 愿意 做 两 次 这 样 的 搜索 ， 而 宁愿 
仅仅 只 写 一 个 单独 的 命令 ， 把 单数 形式 和 复数 形式 都 用 “ 带 随 选 词尾 s 的 
woodchuck” 这 样 的 形式 表达 出 来 。 这 时 ， 你 就 需要 使 用 正则 表达 式 。 


如 果 你 想 查 询 在 某 个 文件 中 的 所 有 的 物价 ; 想 看 到 所 有 的 诸如 
$199、$25、$24.99 这 样 的 表示 物价 所 谓 符 号 串 ， 以 便 把 它们 自动 地 从 价 
目 表 中 抽取 出 来 。 这 时 ， 你 也 要 用 到 正则 表达 式 的 知识 。 


有 限 状 态 转移 网 络 、 有 限 状 态 转录 机 、 递 归 转 移 网 络 、 扩 充 转 移 网 
络 ， 都 是 建立 在 有 限 状 态 自动 机 (finite state automaton) 的 基础 之 上 
的 。 正 则 表达 式 与 有 限 状 态 目 动 机 之 间 存 在 着 密切 的 关系 ， 我 们 将 通过 
有 限 状 态 目 动机 来 进一步 说 明 如 何 实现 这 些 正 则 表达 式 。 有 限 状 态 自动 


机 不 仅 是 一 种 用 来 实现 正则 表达 式 的 数学 工具 ， 而 且 也 十 自然 语言 处 理 
中 最 为 有 用 的 工具 。 


正则 表达 式 是 一 种 用 于 描述 文本 搜索 符号 串 的 语言 。 用 来 搜索 诸如 
grep 和 Emac 这 样 的 UNIX 工 具 。 在 Perl, Python, Ruby 和 Java 等 程序 语言 
中 ， 以 及 在 Microsoft Word 中 ， 文 本 的 正则 表达 式 几 乎 是 完全 一 样 的 ， 
在 不 同 的 Web 搜 索引 警 中 ， 存 在 着 具有 不 同 特征 的 正则 表达 式 。 除 了 这 
些 实际 的 用 处 之 外 ,正则 表达 式 还 是 计算 机 科学 和 语言 学 的 一 种 最 重要 
的 理论 工具 。 


正则 表达 式 是 1956 年 首先 由 区 林 提 出 来 的 。 一 个 正则 表达 式 是 专用 
语言 中 用 于 描述 符号 串 (string) 的 简单 类 别 的 一 个 公式 。 符 号 串 是 符号 
的 序列 ， 对 于 大 多 数 的 基于 文本 的 检索 技术 来 说 ， 符 号 串 束 是 字母 数 子 
字符 (FR RF SAR: AS) 的 任意 序列 。 在 基于 文本 的 
检索 技术 中 ， 一 个 空白 相当 于 一 个 字符 ， 它 与 其 他 字符 是 同样 看 待 的 ， 
我 们 用 符号 一 来 表示 空白 。 


从 形式 上 说 ， 正 则 表达 式 是 用 来 刻画 符号 串 集 合 的 一 个 代数 表述 。 
因此 ， 它 可 以 用 于 摘 述 符号 串 的 搜索 ， 也 可 以 用 于 以 形式 的 方法 定义 一 
种 语言 。 我 们 将 首先 讲述 如 何 把 正则 表达 式 用 来 描述 文本 的 搜索 ， 然 后 
逐渐 讲解 正则 表达 式 的 其 他 的 用 途 。 由 于 尊 通 的 文本 处 理 程序 与 正则 表 
达 式 的 大 多 数 句法 是 一 致 的 ， 这 样 我 们 束 可 以 把 它 扩充 到 UNIX 和 
Microsoft Word 的 正则 表达 式 。 


正则 表达 式 的 搜索 要 求 有 一 个 我 们 试图 搜索 的 模式 (pattern) 和 一 
个 被 搜索 的 文本 语料库 (corpus) 。 正 则 表达 式 的 搜索 函数 将 对 整个 的 
语料库 进行 搜索 ， 并 返回 包含 该 模式 的 所 有 文本 。 在 诸如 搜索 引擎 这 样 
的 信息 检索 系统 (Information Retrieval， 人 简称 IR) 中 ， 文 本 就 是 整个 的 
文档 或 Web 的 网 页 。 在 一 个 词 处 理 系 统 中 ， 文 本 可 以 是 独立 的 单词 ， 或 


者 是 文档 行 。 因 此 ， 如 果 给 出 一 个 搜索 模式 ， 那 么 ， 搜 索引 擎 返回 的 驶 
征文 档 行 。 下 面 我 们 将 用 下 划 线 强调 模式 中 与 正则 表达 式 相 匹配 的 部 
分 。 对 于 一 个 正则 表达 式 来 说 ， 搜 索 可 以 返回 所 有 的 匹配 ， 也 可 以 只 返 
回 第 一 个 匹配 。 这 里 只 显示 第 一 个 匹配 。 


下 面 我 们 介绍 正则 表达 式 中 常用 的 符号 。 


e NRR“ /[? 


最 简单 的 正则 表达 式 是 由 简单 字符 构成 的 一 个 序列 。 例 如 ， 要 搜索 
Buttercup 我 们 就 侵入 /Buttercup/ 这 个 正则 表达 式 进行 搜索 。 这 样 ， 正 则 
表达 式 /Buttercup/ 束 与 语料库 中 包含 子 字符 串 Buttercup 的 任何 字符 串 相 
m, Au, ZEE T Tm called little Buttercup”( 我 们 假定 在 这 个 搜索 
应 用 中 返回 整个 的 行 ) ， 就 可 以 搜索 到 Buttercup。 


今后 ， 我 们 将 在 正则 表达 式 的 前 后 加 斜 线 “/”， 以 便 区 分 什么 是 正则 
表达 式 ， 什 么 是 模式 。 之 所 以 使 用 斜 线 ， 是 因为 这 种 表示 方法 是 在 Perl 
语言 中 使 用 的 ， 但 在 这 种 表示 方法 中 ， 和 斜 线 并 不 是 正则 表达 式 的 一 部 


搜索 符号 串 可 能 只 包含 一 个 单独 的 字母 《如 /! /) ， 或 者 包括 字母 
序列 〈 如 /urgl/) 。 我 们 在 与 正则 表达 式 相 匹配 的 第 一 个 例子 下 面 加 了 下 
划 线 〈 尽 管 实 际 上 也 可 以 选择 返回 比 第 一 个 例子 更 多 的 东西 ) 。 


正则 表达 式 匹配 模式 的 实例 
/ woodchuck/ " interesting links to woodchuck and lemurs" 
/a/ " Mary Ann stopped by Mona's" 
/ Claire says ,/ "Dagmar, my gift please," Claire says 
/DOROTHY/ “SURRENDER DOROTHY” 
zT " You've left the burglar behind again !" said Nori 
图 2.2 ”用 /表示 搜索 符号 串 


e 双 引 号 <* U” 


正则 表达 式 是 区 分 大 小 写 的 (case sensitive) ; 小 写 /s/ 区 别 于 大 
写 /S/; /s/ 与 小 写字 和 母 s 匹 配 ，/S/ 与 大 写字 和 母 S 匹 配 。 这 意味 
着 ， /woodchuck/ 5j F f$ & Woodchuck 不 匹配 。 我 们 使 用 方 括 
号 < [Wie] ?来 解决 这 个 问题 。 内 部 有 括号 的 字符 符号 串 表 示 所 匹配 的 
字符 是 析 取 (disjunction) 的 。 例 如 ， 下 图 表明 ， 与 / [ww] /匹配 的 模 
式 中 或 者 包含 w， 或 者 包含 W 。 


正则 表达 式 pu fic 模式 例子 
/L wW ]/oodchuck/ Woodchuck 或 woodchuck “ Woodchuck” 
/| abe |/ ‘a’ ab’ Ke’ “Tn uomini, in soldati” 
/[ 1234567890 |/ 任何 数字 “plenty of 7 to 5” 
图 2.3 用 括号 |] 表示 字符 的 析 取 


。 连 字符 < 


正则 表达 式 /1234567890/ 可 以 表达 任何 的 简单 数字 。 类 似 数字 或 字 
母 这 样 的 字符 都 是 构成 表达 式 的 重要 的 建筑 材料 ， 它 们 处 理 起 来 有 时 会 
变 得 很 不 方便 。 例 如 ， 当 我 们 用 “任意 的 大 写字 母 ? 正 则 表达 式 


/ |ABCDEFGHIJALMNOPQRSTUVWXYZ] / 


来 描述 任何 的 大 写字 母 时 ， 就 显得 很 不 方便 。 在 这 样 的 情况 下 ， 可 以 用 
连 字符 “-” 来 表示 在 某 一 范围 (range) 内 的 任何 字符 。 正 则 表达 式 / [2 一 
5| /表示 字符 2, 3, 4 和 5 范围 内 的 一 个 任意 符号 。 表 达 式 / [b-g] /表示 字 
符 b, c, d, e, f 和 和 g 范 围 内 的 一 个 任意 符号 。 下 面 是 其 他 的 例子 : 


正则 表达 式 pt 配 匹配 模式 的 例子 
/LA-Z]/ 一 个 大 写字 母 “We should call it * Drenched Blossoms’ " 
/| a-z |/ 一 个 小 写字 和 母 “my beans were impatient to be hoed” 
/L0-9 |/ 一 个 单独 数字 “Chapter 1: Down the Rabbit Hole” 


B24 ”使 用 括号 [] 和 连 字符 一 表示 某 个 范围 


。 脱 字符 < 


使 用 脱 字 符 “"”， 方 括号 还 可 以 用 来 表示 不 出 现 菜 个 单独 的 字符 。 
如 果 在 开 方 括号 之 后 有 脱 字 符 “， 那 么 ， 相 应 的 模式 束 是 否定 的 。 例 
如 ， 正 则 表达 式 / [al /与 任何 不 包含 a 的 单个 字符 相 匹配 。 不 过 ， 这 种 
用 法 仅仅 当 脱 字符 处 于 开 方 括号 之 后 的 第 一 个 位 置 时 才 有 效 。 如 果 脱 字 
符 出 现在 其 他 位 置 ， 它 只 能 表示 脱 字 符 本 映 。 下 面 古 一 些 例子 。 


正则 表达 式 匹配 ( 单字 符 ) 匹配 模式 的 例子 
[^A-Z] 不 是 一 个 大 写字 母 | “Oyf pripechik” 
[ “Ss | 既 不 是 S$ 也 不 是 s “I have no exquisite reason for’ t" 
[^N n] 不 是 点 号 “our resident Djinn” 
[e^] 不 是 e, 就 是 “look up * now” 
a^b 模式 “a^b” “look up a^b now" 


图 2.5 ”使 用 脱 字符 ^ 表 示 和 否定 或 者 仅仅 表示 它 自 : 


e 问号 “9? » 


使 用 方 括号 解决 了 woodchuck 的 大 小 写 问 题 ， 但 是 还 不 能 既 表 示 
woodchuck 又 表示 woodchucks。 我 们 不 能 用 方 括号 实现 这 样 的 表示 ， 
为 方 括号 容许 我 们 说 “s 或 9"， 但 是 不 容许 我 们 说 “s 或 无 ”。 为 此 ， 我 们 使 
用 问号 “? ”来 表示 前 面 一 个 字符 或 者 “无 ?， 如 下 图 所 示 。 


正则 表达 式 pt 配 匹配 模式 的 例子 
/woodchucks M woodchuck 或 woodchucks “woodchuck” 
/ colou? r/ color 或 colour “colour” 


图 2.6 ”问号 表示 它 前 面 的 那个 字符 是 可 选 的 


e “Kleene ” 


我 们 可 以 把 问号 的 意义 看 成 十 “前 一 个 字符 的 无 或 有 ”。 这 是 一 种 表 
达 我 们 想 要 多 少 东 西 的 方法 。 有 时 我 们 需要 正则 表达 式 能 够 表示 重复 的 
事物 。 例 如 ， 斑 的 叫 声 可 以 看 成 一 种 “语言 "， 这 种 语言 是 如 下 包含 重 复 
的 符号 的 符号 串 : 


baa! 
baaa! 
baaaa! 
baaaaa! 


baaaaaa! 


这 种 语言 的 开头 是 一 个 b， 后 面 跟着 至 少 两 个 8a， 最 后 是 一 个 惊叹 
号 。 有 一 种 基于 星 号 或 “” 的 算 符 可 以 容许 我 们 表达 “若干 个 a*”， 这 种 算 
符 叫 做 “Kleene” ” (我 们 不 妨 将 其 读 为 “<Kleene 星 号 ”) 。Kleene 星 号 的 意 
思 是 “其 直接 前 面 的 字符 或 正则 表达 式 为 零 或 连续 出 现 若 干 次 ”。 这样 一 
来 ，/a /表示 “由 零 或 若干 个 a 构成 的 符号 串 ”?"， 它 可 以 与 4 或 aaaaaa 相 匹 
配 ， 并 且 它 也 可 以 与 Off Minor 相 匹配 ， 因 为 Off Minor 只 包含 零 个 a。 所 
以 ， 与 包含 一 个 或 多 个 a 的 符号 串 相 匹配 的 正则 表达 式 是 /aa /， 它 表示 
一 个 a 后 面 跟着 零 个 或 多 个 a。 更 复杂 的 模式 也 可 以 重复 。 所 以 ，/ [ab] 
“ /表示 “ 零 个 或 多 个 a 或 b” (不 是 表示 “ 零 个 或 多 个 右 方 插 号”) 。 这 个 正 
则 表达 式 可 以 与 aaaa 或 ababab 或 bbbb 符 号 串 相 匹配 。 


现在 我 们 已 经 完全 知道 怎样 用 正则 表达 式 来 表示 多 位 数 的 价钱 。 单 
位 数 的 价钱 的 正则 表达 式 是 / [0-9] /。 因 此 一 个 整数 (数字 串 ) 的 正则 
表达 式 就 是 / [0-9] [0-9] */° 


e “Kleene+” 


有 了 时， 把 数字 的 正则 表达 式 写 两 次 会 令 人 感到 腊味 ， 因 此 ， 提 出 了 
一 种 表示 数字 “最 少 有 一 个 ”的 简单 方法 。 这 种 方法 就 是 “Kleene+”( 读 


为 “Kleene 加 号 ”) ，Kleene 加 号 的 含义 是 “前 面 一 个 或 多 个 字符 ”。 
此 ， 正 则 表达 式 / [0-9| +/ 是 “数字 序列 ”的 规范 表达 式 。 羊 叫 声 的 语言 
有 两 种 表示 方法 : /baaa' ! /和 /baa+! /。 


e 通配符 和“.” 


还 有 一 个 重要 的 字符 就 是 点 号 UJ) ,这 是 一 个 通配符 
(wildcard) 。 这 个 通配符 表示 任何 与 单个 字符 ( 回 车 符 除外 ) 相 匹 配 
的 字符 。 


正则 表达 式 


/eg./ | 位 于 beg 和 n 之 间 的 任何 字符 
ED “用 点 号 "表示 任意 字符 


模式 例子 


bengin, beg’n, begun 


通配符 经 常 与 Kleene 星 号 结合 起 来 使 用 ， 其 意思 是 “任何 的 字符 
串 ”。 例 如 ， 如 果 我 们 想 找 到 文本 中 的 某 一 行 ， 其 中 aardvark 这 个 词 出 现 
两 次 。 我 们 可 以 用 正则 表达 式 表 示 为 : /aardvark.” aardvark/ ° 


e ERE «^» 和 “<$” 


fü (anchors) 是 一 种 把 正则 表达 式 销 在 符号 串 中 某 一 个 特定 位 置 
的 特殊 字符 。 最 普通 的 锁 号 是 脱 字符 “和 美元 符号 “$”。 脱 字符 与 行 的 
开始 相 匹配 。 正 则 表达 式 /AThe/ 表 示 单 词 The 只 出 现在 一 行 的 开始 。 


这 样 一 来 ， 脱 字符 “ 心 可 有 三 种 用 法 : 表示 一 行 的 开始 ; 在 方 括号 
内 表示 人 否定， 只 表示 脱 字 符 本 里 。 


美元 符号 $ 表 示 一 行 的 结尾 。 所 以 模式 “_$” 是 一 个 有 用 的 模式 ， 它 
表示 一 行 的 结尾 是 一 个 空 日 。 正 则 表达 式 /^The dog\.$/ 表 示 仪 只 包含 短 
语 The dog 的 一 个 行 。 (这 里 必须 使 用 反 斜 杠 ^»， 因 为 我 们 想 让 “.” 表 示 
点 号 ， 而 不 表示 通配符 ) ° 


e 词 AE c\b 99 和 «p» 


此 外 还 有 两 个 其 他 的 销 号 : \b 表 示 词 界 ， 而 \ 了 表示 非 词 界 。 因 此 ， 
Abthe\b/ 表 示 单 词 the ， 而 不 是 表示 单词 other。 从 技术 上 说 ，Perl 语 言 把 
词 定 义 为 数字 、 下 划 线 或 字母 的 任何 序列 。 这 是 根据 像 Perl 和 C 这 样 的 程 
序 语言 中 关于 词 的 定义 来 说 的 。 例 如 ，Ab99/ 表 示 在 “There are 99 bottles 
of beer on the wall”* 中 的 符号 串 99。 因 为 99 跟 在 一 个 空白 的 后 面 。 但 是 这 
个 正则 表达 式 不 表示 在 “There are 299 bottles of beer on the wal” 的 符号 串 
99， 因 为 99 跟 在 一 个 数字 的 后 面 。 然 而 ， 这 个 正则 表达 式 表 示 $99 中 的 
99 〈 因 为 99 跟 在 美元 符号 $ 的 后 面 ，$ 不 是 数字 、 下 划 线 或 字母 ) 。 


假定 我 们 需要 搜索 关于 宠物 的 文本 ; 而 且 我 们 对 于 cat 或 dog 最 感 兴 
趣 。 这 时 ， 我 们 试图 搜索 符号 串 cat， 或 者 符号 串 dog。 因 为 我 们 不 能 使 
用 方 括号 来 搜索 “cat 或 dog”， 我 们 需要 一 个 叫做 析 取 算 符 (disjunction 
operator) 的 新 算 符 “”， 这 样 的 算 符 又 叫做 析 取 符 (pipe symbol) ° IE 
则 表达 式 /catldog/ 表 示 或 者 是 符号 串 cat， 或 者 是 符号 串 dog 。 


e HITRI 


有 时 我 们 需要 在 比较 长 的 序列 中 间 使 用 析 取 符 。 例 如 ， 假 定 我 想 为 
我 的 朋友 David 搜 索 关 于 他 的 宠物 guppy 〈 虹 钱 ) 的 信息 ， 我 要 怎样 才 可 
以 同时 表达 guppy 和 它 的 复数 形式 guppies 呢 ?我 们 不 能 简单 地 表示 
为 /guppylies/， 因 为 这 样 的 表达 式 只 能 与 符号 串 guppi 和 ies 相 匹配 。 像 
guppy 这 样 的 符号 序列 优先 于 (precedence) 析 取 符 “|*。 为 了 使 析 取 算 符 
只 能 应 用 于 特定 的 模式 ， 我 们 需要 使 用 圆 括号 算 符 “(”* 和 “) ”， 把 一 个 
模式 括 在 圆 括 号 中 ， 使 得 它 就 像 一 个 单独 的 字符 来 使 用 ， 而 且 在 其 中 可 
以 使 用 析 取 符 “ ”和 Kleene ”等 算 符 。 因 此 ， 表 达 式 /gupp(ylies)/ 表 示 析 取 
符 仅 仅 应 用 于 后 缀 y 和 ies。 


当 我 们 使 用 如 Kleene” 这 样 的 计数 符 的 时 候 ， 圆 括号 算 符 “(” 也 是 
很 有 用 的 。 与 算 符 个 不同，Kleene 算 符 只 能 用 来 表示 单个 的 字符 ， 不 
能 用 来 表示 整个 的 序列 。 如 采 我 们 想 匹配 某 一 符号 串 的 重复 出 现 ， 我 们 
有 一 行 符 号 包含 列 标记 Column1 1 Column 2 Column 3。 表 达 式 /Column_ 

[0-9] +“ /不 能 与 任何 的 列 相 匹配 ， 但 是 可 以 与 一 个 后 面 有 任意 数目 
的 空白 的 列 相 匹配 ! BS BMA TRAE BBY A IST 
号 “<”， 而 不 表示 整个 的 序列 。 我 们 可 以 用 圆 括号 写 出 正则 表达 
zU(Column [0-9] +“)/， 这 个 表达 式 与 单词 Column 后 面 跟 着 一 个 数 
字 和 任意 数目 的 空 日 组 成 的 符号 串 相 匹配 。 整 个 模式 可 以 重复 任意 次 
数 。 


可 见 ， 一 个 算 符 可 能 优先 于 其 他 的 算 符 ， 因 此 ， 我 们 有 必要 使 用 括 
号 来 表示 这 种 优先 关系 ， 在 正则 表达 式 中 ， 这 种 优先 关系 是 通过 算 符 优 
先 层级 (operator precedence hierarchy) 来 形式 地 描述 的 。 下 面 的 表 中 给 
出 了 正则 表达 式 算 符 优先 的 顺序 ， 其 优先 性 按 从 高 到 低 的 顺序 排列 : 


圆 括号 Q 


计数 符 +*+? 0j 
序列 与 销 the ^myend $ 


析 取 符 | 


由 于 计数 符 比 序列 具有 更 高 的 优先 性 ， 所 以 /the” /5 theeeee #H VL 
配 ， 而 不 与 thethe 相 匹配 。 由 于 序列 比 析 取 符 具有 更 高 的 优先 性 ， 所 
以 /thelany/ 与 the 或 者 any 相 匹配 ， 而 不 与 theny 相 匹配 。 


模式 有 时 可 能 具有 歧义 。 当 正则 表达 式 / [a-z] "/5jonce upon a time 
这 个 文本 相 匹配 时 ， 由 于 / [az| ”/ 可 以 与 零 或 者 更 多 的 字母 相 匹配 ， 
因此 ， 这 个 正则 表达 式 可 以 与 零 相 匹配 ， 也 可 以 与 首 字母 o， 或 on， 或 
one， 或 once 相 匹配 。 在 这 些 场 合 ， 正 则 表达 式 应 该 总 是 尽 其 可 能 与 其 
中 最 长 (largest) 的 符号 串 相 匹配 ， 在 这 种 情况 下 ， 它 应 该 匹配 once e 
我 们 可 以 说 ， 这 些 模式 总 是 贪心 地 (greedy) 扩充 ， 试 图 覆盖 尽 可 能 长 
HJ SER o 


假定 我 们 想 写 一 个 正则 表达 式 来 找 查 英语 的 冠 词 he， 我 们 可 以 写 出 
一 个 简单 的 (但 是 不 正确 的 ) 表达 式 : 


/the/ 


这 个 表达 式 不 能 表示 当 the 位 于 句子 开头 的 情况 ， 因 为 这 时 the 的 第 
一 个 字母 要 大 写 ， 即 写 为 The。 这 使 我 们 想到 使 用 表达 式 : 


/ [tT] he/ 


但 是 ， 当 文本 中 the 嵌 入 在 其 他 单词 中 间 的 时 候 〈 例 如 ，other 或 
theology) ， 这 样 的 表达 式 就 不 正确 了 。 这 时 ， 我 们 就 需要 在 表达 式 中 


说 明 ， 一 个 单词 的 两 端 应 该 有 边界 ， 表 达 式 应 该 是 : 


Ab [tT] he\b/ 


如 采 不 用 Ab/， 我 们 是 不 是 也 可 以 达到 这 的 目的 呢 ? 因为 Ab/ 不 能 处 
理 the 后 面市 下 划 线 或 数目 字 的 情况 ， 我 们 也 不 想 把 下 划 线 或 数目 字 看 成 
征 词 的 界限 。 但 是 ， 我 们 试图 在 可 能 出 现下 划 线 或 数目 字 的 某 个 上 下 文 
中 找到 the (例如 ，the 或 the25) 。 我 们 需要 说 明 在 the 的 两 侧 不 能 出 现 字 
o 这 时 ， 表 达 式 为 : 


/ |Aa-zA-Z| [tT] he [^a-zA-Z| / 


但 是 ， 这 个 表达 式 仍然 还 有 问题 。 当 the 出 现在 一 行 的 开头 时 ， 我 们 
就 会 找 不 到 它 。 这 是 因为 我 们 曾经 用 正则 表达 式 [^a-zA-Z| RE 
入 的 the， 这 意味 着 ， 在 文本 中 ，the 的 前 面 必 定 有 某 个 单独 的 字符 ， 哪 
人 这 个 字符 是 非 字 母 字 符 。 如 采 我 们 说 明 ， 在 the 的 前 面 或 者 是 一 行 的 开 
头 ， 或 者 生 非 字母 字符 ， 我 们 就 可 以 避免 这 样 的 问题 。 这 时 的 正则 表达 
EU: 


/^| [^a-zA-Z] ) [tT] he [^a-zA-Z] / 


我 们 刚才 所 分 析 例 子 的 错误 可 以 归纳 为 两 种 类 型 : 一 类 是 正面 错误 
(false positives) ， 例 如 ， 我 们 搜索 the 的 时 候 ， 错 误 地 匹配 other 或 there 
这 样 的 符号 串 ， 一 类 是 负面 错误 (false negatives) ， 例 如 ， 我 们 搜索 the 
的 时 候 ， 错 误 地 遗漏 The 这 样 的 符号 串 。 在 研制 自然 语言 处 理 系统 的 时 
修 ， 这 两 种 类 型 的 错误 总 是 一 而 再 、 再 而 三 地 反复 出 现 。 为 了 减少 应 用 
系统 的 错误 率 ， 我 们 要 做 两 方面 的 努力 ， 而 这 两 方面 的 努力 是 彼此 对 立 
的 : 


。 增 加 准确 率 (accuracy) : 把 正面 错误 减少 到 最 低 限 度 。 


。 增加 和 覆盖 率 (coverage) : 把 负面 错误 减少 到 最 低 限 度 。 


让 我 们 举 出 更 有 意义 的 例子 来 说 明正 则 表达 式 的 能 力 。 假 定 我 们 想 
要 用 正则 表达 式 帮 助 用 户 在 Web 上 购买 计算 机 。 用 户 需 要 的 是 “6GHz 以 
上 、256GB 磁 盘 空 间 、 价 钱 低 于 $1 000 的 计算 机 ”。 为 了 进行 这 样 的 检 
索 ， 我 们 首先 需要 能 够 查找 诸如 6GHz，256GB、Dell、Mac、$999.99 这 
样 的 表达 式 。 在 本 节 的 其 他 部 分 ， 我 们 将 设计 某 些 正则 表达 式 来 做 这 样 
的 工作 。 


首先 ， 我 们 来 设计 关于 价钱 的 正则 表达 式 。 下 面 是 美元 符号 $ 后 面 
跟着 一 个 数字 符号 串 的 表达 式 。 注 意 ，Perl 善 于 表达 这 样 的 $9， 而 不 让 它 
表示 行 尾 。 正 则 表达 式 如 下 〈 它 能 做 到 这 一 点 吗 ? ) 


/$ [0-9] +/ 


现在 需要 处 理 美 元 中 小 数 部 分 ， 我 们 可 以 在 上 述 表 达 式 后 面 加 小 数 
点 和 两 个 数字 。 正 则 表达 式 如 下 : 


/$ [0-9] +\. [0-9] [0-9] / 


这 样 的 表达 式 只 能 表示 $199.99， 而 不 能 表示 $199。 我 们 需要 把 小 数 
部 分 设 成 可 以 随意 选择 的 ， 并 且 确 定单 词 的 边界 。 正 则 表达 式 如 下 : 


Ab$ [0-9] +(\. [0-9] [0-9] )?\b/ 


怎样 来 表达 处 理 器 的 速度 (IK if megahertz- MHz 2X, F JE iii 
gigahertz-GHz) We? 表达 式 如 下 : 


Ab [0-9] +_* (MHz| [Mm] egahertz|GHz| [Gg] igahertz)\b/ 


注意 ， 我 们 用 /“ /表示 “ 零 或 更 多 空间 ”， 因 为 这 里 可 能 总 是 会 有 一 
些 多余 的 空间 。 在 处 理 磁盘 空间 或 存储 量 (TIE GB=gigabytes ) 
时 ， 我 们 也 需要 容许 和 干 兆 字 市 的 小 数 是 可 以 随意 选择 的 (5.5GB) 。 注 
意 ， 这 里 使 用 “? ”来 表示 最 后 一 个 s 是 可 以 随意 选择 的 。 正 则 表达 式 如 
ps 


Ab [0-9] +(\. [0-9] 4)? * (GB)| [Gg] igabytes?)\b/ 
最 后 ， 我 们 还 可 以 用 简单 的 正则 表达 式 来 表示 操作 系统 的 名 称 : 


Ab(Windows " (Vista|XP)\b/ 
Ab(Mac|Macintosh|Aspple|OS_X)\b/ 


还 有 一 些 有 用 的 正则 表达 式 高 级 算 符 (advanced operators) ° 12.8 
列 出 了 一 些 有 用 的 通用 字符 的 蔡 换 名 ， 使 用 这 些 奉 换 名 ， 可 以 节省 打字 
HJ LfER ° ER f Kleene" ”和 Kleene+ 之 外 ， 我 们 还 可 以 使 用 花 括 号 括 起 来 
的 数字 作为 计数 符 。 例 如 ， 正 则 表达 式 /{3 表 示 “ 前 面 的 字符 或 表达 式 
正好 出 现 3 个 ”。 这 样 ，/a\{24}z/ 就 表示 a 后 面 跟 随 着 24 个 点 ， 再 跟随 着 
一 个 z (不 是 a 后 面 跟随 着 23 个 或 者 25 个 点 再 跟随 着 一 个 z) 。 


正则 表达 式 | ”扩充 表达 式 匹配 模式 例子 
\d [0-9] 任何 数字 字符 Party. of 5 
\D [0-9] 任何 非 数 字 字 符 Blue_moon 
\w [ a-zA-Z0 -9 ] | 任何 字母 数字 字符 或 空白 Daiyu 
\W [^w] 个 非 字 母 数字 字符 Hu 
\s [ _\r\t\n\f ] 空白 区 域 ( 空白 ,表格 ) 
\S [ ^w] 非 空 白 区 域 in_ Concord 


图 2.8 ”通用 字符 集 的 替换 名 


数字 的 范围 也 可 以 用 类 似 的 办 法 来 表示 。/{n, mj/ 表 示 前 面 的 字符 
或 表达 式 出 现 n 到 m 个 ，/{n,M/ 表 示 前 面 的 表达 式 至 少 出 现 n 个 。 图 2.9 总 
结 了 用 于 计数 符 的 正则 表达 式 。 


正则 表达 式 pe 配 


前 面 的 字符 或 表达 式 出 现 零 个 或 多 个 

+ 前 面 的 字符 或 表达 式 出 现 一 个 或 多 个 

? 前 面 的 字符 或 表达 式 恰 恰 出 现 零 个 或 一 个 
in} 前 面 的 字符 或 表达 式 出 现 n 个 

| n, ml 前 面 的 字符 或 表达 式 出 现 n I] m 4S 

tn, | 前 面 的 字符 或 表达 式 至 少 出 现 n 个 

图 2.9 用 于 计数 符 的 正则 表达 式 算 符 


最 后 ， 还 可 以 用 基于 右 斜 杠 人 的 记 法 来 引用 某 些 特殊 字符 。 最 普通 
的 记 法 就 是 换行 符 (newline) “\n” 和 表格 符 (tab)\t*”。 为 了 引用 某 个 特殊 
的 字符 (例如 ,.，”， |[ 和 \， 可 以 在 这 个 字符 前 面 加 右 斜 杜 、(A./，A 信 ” 
/, A | 和 AV) ° 


正则 表达 式 pt 配 匹配 模式 的 例子 
\ x HB“ g” “K «Ax P*L*Ax*N” 
\. [= NM “Dr. Livinston, I presume” 
\? 问号 “Would you light my candl ?” 
\n 换行 符 
\t 表格 符 


E10 蘑 些 加 右 斜 杠 的 字符 


正则 表达 式 的 一 个 重要 用 途 是 替换 (substitution) 。 例 如 ，Perl 语 言 
中 的 替换 运算 符 s/regexplregexp2/ 可 把 一 个 用 正则 表达 式 描 述 的 符号 串 
替换 为 另 一 个 用 正则 表达 式 描 述 的 符号 串 : 


s/colour/color/ 


我 们 经 常 需要 引用 与 某 一 个 模式 相 匹配 的 符号 串 中 的 特定 部 分 。 例 
如 ， 假 定 我 们 想 把 文本 中 的 所 有 整数 的 两 侧 加 上 人 尖 括 号 ， 具 体 地 说 ， 要 
把 the 35 boxes Athe «35» boxes。 我 们 只 要 引用 相应 的 整数 ， 我 们 束 
可 以 很 容易 地 在 它 的 两 侧 加 上 尖 插 号 。 为 此 ， 我 们 在 第 一 个 模式 ( 即 整 
数 ) 的 两 侧 加 上 圆 括号 “和 “9"， 然 后 ， 在 第 二 个 模式 中 使 用 数字 算 符 
(number operator) 1” 以 便 回 过 头 去 参照 第 一 个 模式 : 


s/( |0-9| +)/<\1>/ 


圆 括号 和 数字 也 可 以 用 来 说 明 某 个 符号 串 或 表达 式 在 文本 中 出 现 两 
次 。 例 如 ， 假 定 我 们 要 查找 模式 “the Xer they were, the Xer they will 
be”， 我 们 想 让 其 中 的 X 指 同一 个 符号 串 。 这 时 ， 我 们 在 第 一 个 X 的 两 侧 
WAS, FHA ERTL EA V X: 


/the (.* Jer they were, the Mer they will be/ 


这 里 的 ^A12 可 以 与 用 圆 括号 中 的 项 相 匹配 的 任何 符号 串 来 替换 。 
此 ， 与 这 个 正则 表达 式 相 匹配 的 符号 串 是 “The bigger they were, the 
bigger they will be”， 而 不 是 “The bigger they were, the faster they be” ° 


数字 算 符 也 可 以 使 用 其 他 的 数字 。 如 果 我 们 要 匹配 辆 括号 中 的 不 同 
的 符号 串 ， 那 么 ， 我 们 可 以 用 数字 2 来 表示 圆 括号 另 一 个 符号 串 。 这 样 
的 数字 存储 器 叫做 寄存 器 (registers) 。 例 如 ， 寄 存 器 1、 寄 存 器 2、 寄 
存 器 3， 等 等 。 这 样 的 存储 特性 不 是 每 一 种 正则 表达 式 语言 都 具备 的 ， 
但 这 常常 是 正则 表达 式 的 中 充 ” 特 性 。 


魏 罕 鲍 姆 在 1966 年 曾经 根据 这 种 使 用 替换 的 存储 器 的 原理 开发 了 
ELIZA 自 然 语言 理解 程序 是 非常 有 用 的 。 在 第 一 划 中 我 们 说 过 ，ELIZA 


可 以 模拟 心理 咨询 医生 的 行为 ， 它 可 以 同 用 户 进行 对 话 。 下 面 我 们 再 举 
一 个 对 话 的 例子 : 


用 户 : Men are all alike. 

ELIZA: IN WHAT WAY. 

用 户 : They're always bugging us about something or other. 
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE. 
用 户 : Well, my boyfriend made me come here. 

ELIZA: YOUR BOYFRIEND MADE YOU COME HERE. 
用 户 : He says I'm depressed much of the time. 

ELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSED. 


ELIZA 进 行 一 连 串 的 正则 表达 式 的 奉 换 ， 每 个 正则 表达 式 与 输入 行 
中 的 某 个 部 分 相 匹 配 ， 然 后 替换 并 改变 它们 。 首 先 的 替换 十 把 所 有 的 my 
替换 为 YOUR， 把 所 有 的 Im 替换 为 You are， 如 此 等 等 。 然 后 的 替换 是 查 
找 输入 中 相关 的 模式 ， 并 产生 出 适合 的 输出 。 下 面 是 一 些 例子 : 


s/ YOU ARE (depressed|sad) . /I AM SORRY TO HEAR YOU 
ARE \1/ 


s/. YOU ARE (depressed|sad) . /WHY DO YOU THINK YOU 
ARE M/ 


s/." all . /IN WHAT WAY/ 
s/. always .. /CAN YOU THINK OF A SPECIAL EXAMPLE/ 


由 于 在 ELIZA 系 统 中 大 量 使 用 正则 表达 式 ， 使 得 这 个 系统 看 起 来 似 
乎 能 够 理解 自然 语言 ， 实 际 上 ， 它 的 原理 并 不 复杂 。 由 此 可 以 看 出 ,在 
目 然 语言 处 理 中 ， 正 则 表达 式 确 实 是 一 种 简单 而 有 用 的 工具 。 


第 三 六 ”最 小 编辑 距离 算法 


在 词汇 上 自动 处 理 中 ， 判 断 两 个 单词 中 的 哪 一 个 在 拼写 上 更 接近 于 第 
三 个 单词 ， 是 字符 串 距 离 (string distance) 这 个 一 般 问 题 的 一 种 特殊 情 
况 。 两 个 符号 串 之 间 的 距离 用 这 两 个 符号 串 彼 此 相似 的 程度 来 度量 。 


找 出 符号 串 距 离 的 很 多 重要 算法 都 与 最 小 编辑 距离 (minimum edit 
distance) 算法 的 某 个 版 本 。 这 个 版 本 的 算法 是 瓦格纳 (Wagner) 3E 
SR (Fischer) 在 1974 年 提出 的 。 


两 个 符号 串 之 间 的 最 小 编辑 距离 束 是 指 把 一 个 符号 串 转 换 为 另 一 个 
符号 串 时 ， 所 需要 的 最 小 编辑 操作 的 次 数 。 例 如 ，intention 和 execution 
之 间 的 距离 是 5 个 操作 。 


下 图 说 明了 两 个 符号 串 之 间 对 齐 (alignment) 的 情况 。 给 定 两 个 序 
列 ， 这 两 个 序列 的 子 符号 串 之 间 的 对 应 情况 就 是 对 齐 。 例 如 ， 在 图 2.11 
中 ， 革 与 空 符号 串 对 齐 ，N 与 E 对 齐 ，T 与 X 对 齐 ， 等 等 。 在 对 齐 的 符号 串 
下 边 的 标记 说 明 从 上 面 的 符号 串 转 换 为 下 面 的 符号 串 要 做 的 操作 ， 符 号 
的 一 个 序列 就 表示 一 个 操作 表 (operation list) 。 其 中 ，d 表 示 删 除 

(deletion) , sr mM (substitution) ,i 表示 插 入 (insertion) 


图 2.11 把 两 个 符号 串 之 间 的 最 小 编辑 距离 表示 为 对 齐 。 最 下 面 一 行 给 出 了 从 上 面 的 符号 串 到 下 


面 的 符号 串 转 换 时 的 操作 表 : 4 表示 删除 ，s 表 示 奉 代 ，i 琅 示 择 入 。 


我 们 也 可 以 给 每 一 个 操作 一 个 代价 值 (cost) 或 权 值 (weight) ° 
两 个 序列 之 间 的 列 文 斯 坦 距 离 (Levenshtein distance) 是 最 简单 的 加 权 
因子 ， 根 据 1966 年 Levenshtein 的 建议 ， 在 上 面 三 种 方法 中 的 每 一 个 操作 
的 代价 值 都 为 1 由。 所 以 ， 在 intention 和 execution 之 间 列 文 斯 坦 距离 为 
5 o 


列 文 斯 坦 还 提出 了 另 一 种 不 同 的 度量 方法 ， 这 种 方法 规定 ， 插 入 或 
脱落 操作 的 代价 值 为 1， 不 容许 蔡 代 操作 〈 列 文 斯 坦 认 为 ， 可 以 把 奉 代 
操作 表示 为 一 个 插入 操作 加 上 一 个 脱落 操作 ， 这 样 ， 蔡 代 操 作 的 代价 值 
为 2， 这 实际 上 也 就 等 于 容许 了 替代 操作 ) 。 使 用 这 样 的 度量 方法 ， 在 
intention 和 execution 之 间 的 列 文 斯 坦 距 离 应 该 是 8。 在 本 书 中 ， 我 们 采用 
列 文 斯 坦 提出 的 这 种 方法 来 度量 最 小 编辑 距离 。 


最 小 编辑 距离 使 用 动态 规划 (dynamic programming) 来 计算 。 动 态 
规划 是 一 类 算法 的 名 字 ， 首 先 于 1957 年 由 白 尔 曼 (Bellman) 提出 。 动 
态 规划 把 各 个 子 问 题 的 求解 结合 起 来 ， 从 而 求解 整个 问题 。 这 一 类 算法 
包括 了 上 自然 语言 处 理 中 的 大 多 数 通 用 算法 。 


从 直觉 上 来 说 ,动态 规划 问题 就 古 首先 把 一 个 大 的 问题 化 解 为 不 同 
的 子 问题 ， 再 把 这 些 子 问题 的 解 适当 地 结合 起 来 ， 从 而 实现 对 大 的 问题 
的 求解 。 


例如 ， 下 图 中 所 示 的 符号 串 intention 和 execution 之 间 的 最 小 编辑 距 
离 的 求解 ， 职 要 考虑 被 转换 的 不 同 单词 的 序列 和 “路 径 ”(path) 等 子 问 
题 。 其 中 的 一 条 路 径 可 以 包括 如 下 步 又 : 


1. 删除 intention 中 的 第 一 个 字母 1i， 得 到 ntention; 


2. Hen tention 中 的 第 一 个 字母 n， 得 到 etention; 


3. 用 x 替 代 et ention 中 的 第 二 个 字母 t， 得 到 ex ention; 


4. 在 exention 中 的 第 四 个 字母 np 和 第 五 个 字母 之 间 插 入 字母 u， 得 到 


exenu tion; 
5. Ac exen ution 中 的 第 四 个 字母 n， 得 到 execution ° 


用 于 序列 比较 的 动态 规划 算法 工作 时 ， 要 建立 一 个 距离 矩阵 ， 目 标 
序列 的 每 一 个 符号 记录 在 矩阵 的 行 上 ， 源 序列 的 每 一 个 符号 记录 在 矩阵 
的 列 上 ， 也 就 是 说 ， 目 标 序列 的 字母 沿 着 底线 排列 ， 源 序列 的 字母 沿 着 
侧线 排列 。 对 于 最 小 编辑 距离 来 说 ， 这 个 和 矩阵 就 是 编辑 距离 矩阵 (edit 
distance matrix) 。 每 一 个 编辑 距离 单元 [ij]. 表示 目标 序列 头 个 字符 
和 源 序 列 的 头 j 个 字符 之 间 的 距离 。 每 个 单元 可 以 作为 周围 单元 的 简单 画 
数 来 计算 。 


intention 

<— delete i 
ntention 

< substitute n by e 
etention 


«— substitute t by x 


exention 

< insert u 
exenution 

< substitute n by c 
execution 


图 2.12 ”从 intention 到 execution 转 换 的 操作 表 


计算 每 个 单元 中 的 值 的 时 候 ， 我 们 取 到 达 该 单元 时 插入 、 替 代 、 删 
除 三 个 可 能 的 路 径 中 的 最 小 路 径 为 其 值 ， 计 算 公式 如 下 ; 


distancel i-1, ] | + ins-cost( target, _, ) 
distancel i-1, j-1 ] + sub-cost( source; ,, 
) 


distancel i, j-1 | + del-cost( source, , ) 


distancel|. 15] ] = min 
target; _ 


图 2.13 中 的 伪 代 码 (pseudo code) 对 于 这 个 算法 做 了 归纳 。 


function MIN-EDIT-DISTANCE ( target, source ) returns min-distance 


n«—LENGTH( target ) 
m«—LENGTH( source ) 
Create a distance matrix distance, n +1, m +I] 
Initialize the zeroth row and column to be the distance from the empty string 
distance, 0, 0 ] 20 
for each column i from 1 to n do 
distance. i, O ]«—distancd, i - 1, 0 | + ins-cost target| i]) 
for each row j from 1 to m do 
distance, O, j ]—distancd 0,j-1 ] + del-cost( source, i] ) 
for each column i from 1 to n do 
for each row j from 1 to m do 
distance i, j —MiN distance, i — 1l, j ] + ins-cost( target, , ), 


distance, i - 1, j -1 ] + sub-cost( source, , ], target, , ), 


distance| i, j — 1 | + del-cost source, , )) 


return distance | n, m | 


图 2.13 ”最 小 编辑 距离 算法 的 伪 代 码 。 各 种 代价 值 可 以 是 固定 的 〈 例 如， V. x, ins- 
cost(x)-1) ， 也 可 以 针对 个 别 的 字母 特别 地 说 明 〈 例 如 ， 说 明 某 些 字 母 比 另外 的 一 些 字 母 更 容 
易 被 奉 代 ) 。 我 们 假定 相同 的 字母 进行 车 代 ， 其 代价 值 为 零 。 


图 2.14 是 应 用 这 个 算法 计算 intention 和 execution 之 间 的 距离 的 结 
计算 时 采用 了 列 文 斯 坦 提 出 的 第 二 种 度量 方法 : 插入 和 脱落 的 代价 值 分 
别 取 1， 替 代 的 代价 值 取 2， 当 相同 的 字母 进行 奉 代 时 ， 其 代价 值 为 零 。 
在 每 一 个 单元 ， 都 存在 插入 、 脱 落 和 替代 三 个 可 能 性 ， 最 小 编辑 距离 算 
法 从 这 三 个 可 能 的 路 径 中 的 最 小 路 径 为 其 值 ， 采 用 这 样 的 计算 方法 ， 从 
矩阵 的 开始 点 出 发 ， 在 每 一 个 单元 都 在 插入 、 脱 落 和 替代 三 个 可 能 性 之 
间 进 行 选择 ， 因 此 怠 能 够 把 矩阵 中 的 所 有 的 单元 都 填 满 。 


图 2.14 ”应 用 图 2.18 中 的 算法 计算 intention 和 execution 之 间 的 最 小 编剧 距离 ， 计 算 时 采用 了 列 文 
斯 坦 距离 : 插入 和 删除 分 别 取代 价值 为 1， 蔡 代 取 代价 值 为 2。 和 斜体 字符 表示 从 空 符号 串 开 始 的 
距离 的 初始 值 ， 和 矩阵 中 的 所 有 的 单元 都 填 满 了 。 


uo 


采用 最 小 编辑 距离 算法 ， 在 图 2.14 中 ， 首 先 要 删除 intention 中 的 i, 
从 第 1 列 第 0 行 开始 计算 。 


在 图 2.14 中 的 一 种 可 行 的 计算 步 又 如 下 : 

一 首 移 删除 1， 在 第 1 列 第 0 行 ， 得 1 分 ， 积 累 为 1 分 ; 

一 用 e 替 换 n， 在 第 1 列 第 2 行 ， 得 2 分 ， 积 素 为 1+2=3 分 ; 
一 用 x 蔡 换 t{， 在 第 2 列 第 3 行 ， 得 2 分 ， 积 素 为 3+2=5 分 ; 
一 e 不 变 ， 在 第 3 列 第 4 行 ， 不 得 分 ， 积 素 为 5 分 ; 

一 用 c 替 换 n， 在 第 4 列 第 5 行 ， 得 2 分 ， 积 素 为 5+2=7 分 ; 
一 在 c 后 插入 u， 在 第 5 列 第 5 行 ， 得 1 分 ， 积 素 为 7+1=8 分 ; 


一 {与 完全 相同 ， 在 第 6 列 第 6 行 ， 不 得 分 ， 积 宗 为 8+0=8 分 ; 


一 ji 与 完全 相同 ， 在 第 7 列 第 7 行 ， 不 得 分 ， 积 款 为 8+0=8 分 ; 
一 0 与 o 完 全 相同 ， 在 第 8 列 第 8 行 ， 不 得 分 ， 积 素 为 8+0=8 分 ; 


一 0 与 n 完 全 相同 ， 在 第 9 列 第 9 行 ， 不 得 分 ， 积 素 为 8+0=8 分 ; 


最 小 编辑 距离 对 于 发 现 诸如 洪 在 的 拼写 错误 更 正 算 法 等 工作 是 很 有 
用 的 。 不 过 ， 最 小 编辑 距离 算法 还 有 其 他 的 重要 用 途 。 只 要 做 一 些 轻 微 
的 改动 ， 最 小 编辑 距离 算法 就 可 以 用 来 做 两 个 符号 昌之 间 的 最 小 代价 对 
Jf (alignment) 。 两 个 符号 串 的 对 齐 对 于 自然 语言 处 理 是 非常 有 用 的 。 
在 语音 识别 中 ， 可 以 使 用 最 小 编辑 距离 对 齐 来 计算 单词 的 错误 率 。 在 机 
右 翻 译 中 ， 对 齐 也 起 着 很 大 的 作用 ， 因 为 双语 并 行 语料库 中 的 句子 需要 
彼此 匹配 。 


为 了 扩充 最 小 编辑 距离 算法 使 得 它 能 够 进行 对 齐 ， 我 们 可 以 把 对 齐 
看 成 是 通过 编辑 距离 矩阵 的 一 条 路 径 (path) 。 图 2.15 中 使 用 带 阴影 的 
小 方 框 来 显示 这 条 路 径 。 路 径 中 的 每 一 个 小 方 框 表 示 两 个 符号 串 中 的 一 
对 字母 对 齐 的 情况 。 如 果 两 个 这 样 带 阴影 的 小 方 框 连续 地 出 现在 同一 个 
行 中 ， 那 么 ， 从 源 符号 捉 到 目标 符号 串 束 会 有 一 个 插入 操作 ， 如 果 两 个 
这 样 带 阴影 的 小 方 框 连续 地 出 现在 同一 个 列 中 ， 那 么 ， 从 源 符 号 捉 到 目 
标 符号 串 束 会 有 一 个 删除 操作 。 
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图 2.15 “计算 intention 和 execution 之 间 最 小 编辑 距离 的 追踪 路 径 


图 2.15 从 直觉 上 说 明了 如 何 来 计算 这 种 对 齐 路 径 。 
计算 过 程 分 为 两 步 ， 分 述 如 下 : 


e 在 第 一 步 ， 我 们 在 每 一 个 方 框 中 存储 一 些 指针 来 提升 最 小 编辑 距 
离 算 法 的 功能 。 方 框 中 指针 要 说 明 当 前 的 方 框 是 从 前 面 的 哪 一 个 (或 哪 
些 个 ) 方 框 来 的 方向 。 在 图 2.15 中 ， 我 们 分 别 说 明了 这 些 指针 的 情况 。 
在 某 些 方 框 中 出 现 铬 干 个 指针 ， 这 是 因为 在 这 些 方 框 中 最 小 的 扩充 可 能 
来 目前 面 的 若干 个 不 同 的 方 框 。 图 中 ， 指 针 “~” 表 示 插 入 操作 ， 指 
针 “4” 表 示 删 除 操作 ， 指 针 “x ”表示 替换 操作 。 


e 在 第 二 步 ， 我 们 要 进行 追踪 (backtrace) 。 在 追踪 时 ， 我 们 从 最 
后 一 个 方 框 (处 于 最 后 一 行 与 最 后 一 列 的 方 框 ) 开始 ， 沿 着 指针 租 头 所 
指 的 方向 往 后 追踪 ， 罕 过 这 个 动态 规划 和 矩阵。 在 最 后 的 方 框 与 初始 的 方 
框 之 间 的 每 一 个 完整 的 路 径 ， 束 是 一 个 最 小 编辑 距离 对 齐 。 


在 图 2.15 中 ， 在 每 一 个 方 框 中 输入 一 个 值 ， 并 用 箭头 标 出 该 方 框 中 
的 值 是 来 自 与 之 相 邻 的 三 个 方 框 中 的 哪 一 个 方 框 ， 一 个 方 框 最 多 可 以 有 
三 个 箭头 (“ore”) 。 当 这 个 表 填 满 之 后 ， 我 们 就 使 用 追踪 的 方法 
来 计算 对 齐 的 结果 〈 也 就 是 最 小 编辑 路 径 ) ， 计 算 时 ， 从 右上 角 代 价值 


为 8 的 方 框 开始 ， 顺 着 箭头 所 指 的 方 同 进行 追踪 。 图 中 灰 黑 色 的 方 框 序 
列表 示 在 两 个 符号 串 之 间 一 个 可 能 的 最 小 代价 对 齐 的 结果 。 


在 图 2.15 中 ， 首 先 要 删除 intention 中 的 1， 从 第 1 列 第 0 行 开始 计算 ， 
计算 步骤 如 下 : 


一 首先 删除 i， 在 第 1 列 第 0 行 ， 得 1 分 ， 积 累 为 1 分 ; 
一 用 e 替 换 n， 在 第 1 列 第 2 行 ， 得 2 分 ， 积 累 为 1+2=3 分 ; 
一 用 x 蔡 换 t， 在 第 2 列 第 3 行 ， 得 2 分 ， 积 累 为 3+2=5 分 ; 
一 e 不 变 ， 在 第 3 列 第 4 行 ， 不 得 分 ， 积 累 为 5 分 ; 

一 在 e 后 插入 c， 在 第 4 列 第 4 行 ， 得 1 分 ， 积 累 为 5+1=6 分 ; 
一 用 u 蔡 换 n， 在 第 5 列 第 5 行 ， 得 2 分 ， 积 累 为 6+2=8 分 ; 

一 t 与 t 完 全 相同 ， 在 第 6 列 第 6 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 i 与 完全 相同 ， 在 第 7 列 第 7 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 0 与 0 完全 相同 ， 在 第 8 列 第 8 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 n 与 n 完 全 相同 ， 在 第 9 列 第 9 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 


总 积 素 仍然 为 8 分 。 


第 四 广 ”词汇 语义 学 


单词 本 号 的 语义 信息 是 很 重要 的 ， 根 据 “ 组 成 性 原则 ”， 句 子 的 语义 
征 由 构成 该 句子 的 单词 的 语义 以 及 这 些 单 词 之 间 的 语义 关系 组 成 的 。 
此 ， 我 们 在 目 然 语言 处 理 中 ， 应 该 重视 词汇 语义 的 研究 。 


语言 中 的 词汇 具有 高 度 系 统 化 的 结构 ， 正 是 这 种 结构 决定 了 单词 的 
意义 和 用 法 。 这 种 结构 包括 单词 和 它 的 意义 之 间 的 关系 以 及 个 别 单词 的 
内 部 结构 。 对 这 种 系统 化 的 、 与 意义 相关 的 结构 的 词汇 研究 叫做 “词汇 
语义 学 ” (Lexical Semantics) ° 


从 词汇 语义 学 看 来 ， 词 汇 不 是 单词 的 有 限 的 列表 ， 而 是 高 度 系统 化 
的 结构 。 


在 继续 讲述 词汇 语义 学 之 前 ， 让 我 们 首先 引入 一 些 新 的 术语 ， 因 为 
迄今 为 止 我 们 用 过 的 这 些 术 语 都 过 于 模糊 。 例 如 ， 对 于 “ 词 ”(word) 这 
个 术语 ， 目 前 已 有 各 式 各 样 的 用 法 ， 这 增加 了 我 们 漆 清 其 用 法 的 难度 。 
因此 我 们 将 使 用 “ 词 位 ” (lexeme) 这 个 术语 来 蔡 代 “ 词 ” 这 个 术语 ， 词 位 
表示 词典 中 一 个 单独 的 条 目 ， 是 一 个 特定 的 正字 法 形式 和 音素 形式 与 一 
些 符号 的 意义 表示 形式 的 组 合 。 词 典 (Lexicon) 是 有 限 个 词 位 的 列表 ， 
从 词汇 语义 学 的 观点 看 来 ， 词 典 还 是 无 限 的 意义 的 生成 机 制 。 一 个 词 位 
的 意义 部 分 叫做 < 涵义 ” (sense) 。 


词 位 和 它 的 涵义 之 间 存 在 着 复杂 的 关系 。 这 些 关 系 可 以 用 同形 关 
系 、 同 义 关 系 、 上 下 位 关系 、 整 体 一 部 分 关系、 集合 一 元 素 天 系 来 摘 


1. 同形 关系 


形式 相同 而 意义 上 没有 联系 的 词 位 之 间 的 关系 叫做 同形 关系 
(homonymy) 。 具 有 同形 关系 的 词 位 叫做 同形 词 (homonyms) 


例如 : bank 有 两 个 不 同 的 意思 : 


DR T (financial institution) 。 在 句子 “A bank can hold the 
investments in an account in the client's name.” 中 的 bank 就 具有 这 个 意思 ， 


我 们 把 它 叫做 bank1 。 


D Wi $E XÉ FÉ (sloping mound) 。 在 句子 “As the agriculture 
development on the east bank , the river will shrink even more.” P A‘bank 3 
具有 这 个 意思 ， 我 们 把 它 叫 做 bank2 » 


Bank1 和 bank2 在 意义 上 没有 联系 ， 在 词 源 上 ，bankl 来 目 意 大 利 
语 ， 而 bank2 来 自 斯 堪 底 纳 维 亚 语 。 


同形 词 可 以 分 为 两 种 : 


e EŠ (Homophones) : 发 彰 相 同 但 是 拼写 法 不 同 的 词 


HL- MU, wood —would; be—bee; weather—whether ° 


e 同形 异 义 词 (Homographs) : 正 词法 形式 相同 但 是 发 音 不 同 的 词 
位 。 例 如 ，bass |bas| ———bass |beis] ° bass |bes| 是 一 种 皮肤 带刺 
可 食用 的 鱼 ， 叫 做 “ 狼 鲈 ”， 而 bass [beis] : 表示 低音 。 


在 目 然 语言 处 理 中 ， 我 们 应 该 重视 同形 关系 的 研究 。 


e 在 拼写 校正 时 ， 同 音 异 义 词 可 能 会 导致 单词 的 拼写 错误 。 例 如 ， 
把 “weather” 错 误 地 拼写 成 “whether”。 


e 在 语音 识别 时 ， 同 音 异 义 词 会 引起 识别 的 困难 。 例 
如 ，“to”、“two” 和 “too” 发 首相 同 ， 在 识别 时 难以 区 分 。 


e 在 文本 一 语音 转换 系统 (Text-To-Speech system， 和 人 简称 TTS 系 统 ) 
中 ， 同 形 异 义 词 由 于 发 音 不 同 ， 会 引起 转换 的 错误 。 例 如 ，bass [bees] 
和 bass [beis| 。 


一 个 单独 的 词 位 具有 若干 个 彼此 关联 的 涵义 的 现象 ， 叫 做 多 义 关系 
现象 (polysemy) ， 具 有 多 义 关系 的 词 位 叫做 多 义 词 ， 这 意味 着 ， 在 一 
个 多 义 词 中 的 各 个 渔 义 是 彼此 相关 的 ， 而 同形 词 的 各 个 涵义 是 不 相关 
HY ° 


例如 ， 英 语 的 head 是 一 个 多 义 词 。 它 具有 如 下 的 洱 义 : 


包括 大 脑 、 眼 睛 、 耳 洒 、 鼻 子 和 嘴 的 身体 部 分 。 


© 


物品 的 最 前 端 。 例 如 , “the head of the bed” (RA) ° 


© 


© 


头脑 。 例 如 , “Can't you get these facts into your head?” 中 的 head 。 


© 
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渔 义 之 间 是 有 联系 的 。 


我 国学 者 张 湖 生 研制 了 中 文 词语 库 (Chinese Wors Base， 人 简称 
CWB) ， 把 现代 汉语 中 的 单词 构成 一 个 完整 的 词汇 体系 。CWB 系 统 的 
核心 是 一 个 规模 较 大 的 中 文 词 库 。 该 词 库 目前 收入 了 12 万 以 上 的 书面 形 
式 的 词 条 ， 包 括 单词 、 固 定 词组 、 成 语 、 一 定 比例 的 专 名 、 人 少量 在 中 文 
文章 中 较 常 见 的 英文 缩写 或 含有 字母 的 词语 ， 等 等 。 每 个 词 条 通过 关系 
比较 密切 的 相关 词 (例如 同义词 、 反 义 词 、 上 位 词 、 下 位 词 等 ) 与 其 它 


词 条 相连 结 。 整 个 词 库 呈现 为 比较 复杂 的 网 络 结构 ， 并 带 有 多 种 检索 手 
段 和 显示 方式 。 


该 词 库 包含 大 量 的 同 义 、 分 类 等 语义 信息 ， 可 用 作 中 文 的 同义词 
典 、 反 义 词 典 、 分 类 词典 或 者 某 种 资料 信息 库 ， 也 是 一 种 知识 本 体 
(ontology) ， 有 类 似 著 名 英文 词 库 WordNet 的 用 途 。 它 可 用 于 搜索 引 
警 、 全 文 检索 等 检索 工具 中 ， 帮 助 用 户 选 择 关 键 词 、 帮 助 系统 提供 相关 
搜索 词 或 进行 其 它 智能 处 理 ， 例 如 语义 搜索 、 精 准 匹 配 等 。 也 可 用 于 字 
处 理 、 写 作 助 理 等 办 公 软 件 中 ， 丰 富 的 相关 词 能 为 写作 中 的 词语 优化 提 
供 较 有 力 的 文 持 。 还 可 作为 自然 语言 处 理 的 资源 或 汉语 教学 的 辅助 工 
具 。 该 词 库 已 在 有 些 企 业 和 科研 机 构 中 得 到 应 用 。 


CWB 中 注意 处 理 多 义 词 ， 多 义 词 的 义 项 分 布 如 下 : 


义 项 数 间 RY 百分比 义 项 数 in] 数 百分比 
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74 635 81.38 
12 911 14. 08 
2 671 2,91 
766 0.84 
301 0.33 
183 0.20 
0.09 

0.06 

0.03 

0.03 

0.01 


1 
2 
3 
4 
5 
6 
7 
8 
9 
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X2 CWB 中 多 义 词 的 义 项 分 布 


在 CWB 中 ， 义 项 总 数 为 116 396， 词 条 总 数 91 713 ， 平 均 义 项 数 
1.27。 由 此 我 们 可 以 对 于 现代 汉语 中 的 多 义 词 的 义 项 分 布 有 一 个 大 致 的 
了 解 。 


在 语言 学 中 ， 区 分 同形 词 和 多 义 词 是 很 重要 的 。 不 过 ， 在 自然 语言 
处 理 中 ， 由 于 同形 词 和 多 义 词 实际 上 都 是 一 个 词 具有 一 个 以 上 的 涵义 的 
现象 ， 它 们 都 属于 词义 的 歧义 问题 ， 我 们 一 般 没 有 必要 区 分 同形 词 和 多 
义 词 ， 我 们 把 它们 都 作为 词义 排 歧 (Word Sense Disambiguation, ， 简 称 
WSD) 的 问题 来 处 理 。 


2. A) LRA 


在 传统 语言 学 中 ， 如 果 两 个 词 位 具有 相同 的 意义 ， 那 么 ， 束 说 它们 
之 间 具 有 同 义 关 系 (Synonymy) 。 这 样 的 定义 显然 过 于 笼统 ， 缺 乏 操 
作 性 。 


在 机 器 翻译 研究 中 ， 我 们 可 以 根据 可 替换 性 〈substitutablity) 来 定 
义 同 义 关 系 : 在 一 个 句子 中 ， 如 果 两 个 词 位 可 以 互相 替换 而 不 改变 句子 
的 意思 或 者 不 改变 句子 的 可 接受 性 ， 那 么 ， 我 们 就 说 这 两 个 词 位 具有 同 
义 关系 。 这 样 的 定义 显然 具有 可 操作 性 。 


MU, JF “How big is that plane?” 和 人 句子 “Would I be flying on a 
large or small plane?” 中 的 big 和 1large 可 以 互相 替换 ， 而 不 会 改变 这 两 个 名 
子 的 意义 或 改变 它们 的 可 接受 性 ， 我 们 就 说 big 和 large 具 有 同 义 关 系 。 


不 过 ， 如 果 我 们 坚持 这 种 可 替换 性 一 定 要 在 一 切 的 环境 中 都 具有 ， 
那么 ， 英语 中 的 同义词 的 数量 束 很 少 了 。 因 此 ， 我 们 对 于 可 苦 换 性 的 要 


求 不 能 太 过 于 疗 格 ， 只 要 求 在 某 些 环境 下 可 替换 就 可 以 了 。 也 就 十 说 ， 
我 们 宁愿 给 同 义 关系 一 个 比较 弱 的 定义 ， 这 样 做 比较 现实 。 


可 替换 性 与 下 面 4 个 因素 有 联系 : 
© 多 义 关 系 中 的 某 些 涵 义 的 有 无 


fil 41, ©) F “Miss Kim became a kind of big sister to Mrs. Park's 
son.” 是 可 以 接受 的 ， 而 句子 ”“Miss Kim became a kind of large sister to 
Mrs. Park's son.” 束 显得 有 些 怪 。 其 原因 在 于 ， 第 一 个 句子 中 的 big 这 个 多 
义 词 的 多 个 说 义 中 有 older 这 个 涵义 ， 而 large 这 个 多 义 词 的 多 个 涵义 中 ， 
没有 older 这 个 涵义 ， 因 此 ， 在 这 样 的 环境 下 ，big 和 1large 不 能 相互 替 
换 。 


e 微妙 的 意义 色彩 的 差别 


例如 ， 句 子 “What is the cheapest first class fare ?” 是 可 以 接受 的 ， 而 
句子” “What is the cheapest first class price ?” 就 显得 有 些 怪 。 其 原因 在 
于 ，fare 比 较 适 合 于 描述 某 些 服务 中 需要 支付 的 费用 ， 而 price 通 常 适 合 
于 描述 票据 的 价格 ， 因 此 ， 第 二 个 句子 中 用 price 来 替换 fare 丈 显得 有 些 


奇怪 。 


e 搭配 约束 的 不 同 


例如 ， 句 子 “They make a big mistake.” 是 可 以 接受 的 ， 而 句子 - 
“They make a large mistake.” 束 显得 有 些 怪 。 其 原因 在 于 ， 当 摘 述 mistake 
比较 严重 时 ， 往 往 使 用 big 而 不 用 large， 也 就 是 说 ，mistake 倾 向 于 与 big 
搭配 ， 而 不 倾向 于 与 large 搭 配 。 


下 面 a 栏 和 b 栏 的 搭配 是 不 一 样 的 : 


af bf 


strong argument powerful argument 
(有 力 的 论据 ) 《有力 的 论据 ) 

Strong tea powerful whiskey 
( 浓 茶 ) (烈性 的 威士忌) 

strong table powerful car 
(结实 的 桌子 ) (动力 大 的 汽车 ) 


上 述 短 语 的 结构 都 是 A+N (形容 词 + 名 词 ) 。 但 是 ， 在 a 栏 ， 
argument、tea、table 出 现在 strong 之 后 ; 在 b 栏 ，argument、whiskey、car 
出 现在 powerful 之 后 。 讲 英语 的 人 ， 不 能 说 ”strong whiskey， 也 不 能 说 ” 
powerful tea, GU), WETH ° 


e 使 用 域 的 不 同 


使 用 域 (register) 是 指 语言 使 用 中 的 礼貌 因素 、 社 会 地 位 因素 以 及 
其 他 社会 因素 对 于 词语 使 用 的 影响 。 使 用 域 的 差别 也 会 影响 到 同义词 的 


选择 。 


使 用 域 是 语言 使 用 中 由 于 语言 环境 的 改变 而 引起 的 语言 变异 。 语 言 
环境 的 场景 、 交 际 者 、 方 式 三 个 组 成 部 分 ， 都 可 以 产生 新 的 使 用 域 。 


由 于 场景 的 不 同 ， 可 产生 科技 英语 、 非 科技 英语 等 使 用 域 。 科技 英 
语义 可 以 再 细 分 为 冶金 英语 、 地 质 喘 语 、 数 学 英语 、 物 理 英 语 、 化 学 英 
语 、 农 业 英 语 、 医 学 英语 等 使 用 域 。 这 些 使 用 域 之 间 的 差异 ， 主 要 表现 


在 词汇 、 及 物性 关系 (transitivity relations) 和 语言 各 结构 等 级 上 的 逻辑 
关系 的 不 同 。 


由 于 交际 者 的 不 同 ， 可 产生 正式 英语 、 非 正式 吴语 以 及 介 于 这 两 者 
之 间 的 、 具 有 不 同 程度 的 正式 或 非 正式 英语 等 使 用 域 ， 还 可 以 产生 广告 
英语 、 幽 默 英语 、 应 酬 瑞 语 等 使 用 域 。 这 些 使 用 域 之 间 的 差异 ， 主 要 表 
现在 语气 、 情 态 以 及 单词 中 所 表达 的 说 话 者 的 态度 的 不 同 。 


由 于 方式 的 不 同 ， 可 产生 口头 英语 和 书面 英语 等 使 用 域 。 这 些 使 用 
域 之 间 的 差异 ， 主 要 表现 在 句 题 结 构 〈 主 题 、 述 题 ) 、 信 息 结 构 (新 信 
息 、 旧 信息 ) 和 连贯 情况 WAR ` PR AR ` ERS) 的 不 同 。 


在 机 器 翻译 中 ， 同 义 词 的 意义 色彩 差别 、 搭 配 约束 和 使 用 域 对 于 译 
文 的 质量 有 明显 的 影响 ， 我 们 应 该 考虑 到 这 些 因素 ， 正 确 地 选择 恰当 的 
同义词 。 


在 汉语 中 时 存在 着 大 量 的 同义词 。 例 如 , “电脑 一 电子 计算 机 ”“ 甘 
2 —A S712 21 E a BS Zg—r3—8— 
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在 CWB 中 的 同义词 ， 还 包括 通常 所 说 的 异形 词 以 及 其 他 一 些 类 型 ， 
目前 涉及 5,400 以 上 的 词 或 义 项 。 


除了 上 面 所 说 的 严格 的 同义词 之 外 ，CWB 的 同义词 还 包括 : 
一 异形 词 : 例如 ， 伊 妹 儿 一 依 妹 儿 ， 
一 全 称 与 简称 、 缩 略语 : 例如 ， 奥 林 匹 元 运动 会 一 奥运 会 ; 


一 术语 与 俗称 : BUCH Bah: 


一 现代 叫 法 和 旧称 、 古 称 : 例如， 月 亮 一 玉兔， 太阳 一 金马 ; 
一 普通 话 和 某 些 方言 词 : 太阳 一 日 头 ; 


一 未 统一 的 译名 : PRN, ZETA X UI 


aie > Wr: 我 一 即 人 ; 


一 同一 个 概念 的 多 种 表达 方式 ， 例 如 ， 天 翻 地 覆 一 地 覆 天 翻 ， 成 年 
累 月 一 整 年 累 月 ， 防 患 未 然 一 防 患 于 未 然 ， 拉 大 旗 作 虎 皮 一 “ 拉 大 旗 ， 
fee ien © 


3. 上 下 位 关系 


如 采 两 个 词 位 中 ， 一 个 词 位 是 男 一 个 词 位 的 次 类 ， 那 么 就 说 它们 之 
间 存 在 上 下 位 关系 (hyponymy) ° car (小 汽车 ) 和 vehicle (交通 工 
RB) 间 的 关系 就 是 一 种 上 下 位 关系 。 上 下 位 关系 是 不 对 称 的 ， 我 们 把 特 
定性 较 强 的 词 位 称 为 概括 性 较 强 的 词 位 的 下 位 词 (hyponym) ， 把 概括 
性 较 强 的 词 位 称 为 特定 性 较 强 的 词 位 的 上 位 词 (hypernym) ° KHE, 
我 们 可 以 说 ，car 古 vehicle 的 下 位 词 ， 而 vehicle 是 car 的 上 位 词 。 


我 们 可 以 使 用 受 限 的 替换 来 探讨 上 下 位 关系 的 概念 。 
我 们 来 考虑 下 面 的 强 洱 式 


This is a X = That is a Y 


FEIN T HIP. AUARXGÉYBU Bán), MEEME T, SA 
的 句子 为 真 时 ， 右 边 独 产生 的 句子 也 必须 为 真 ， 例 如 。 我 们 有 : 


This is a car => That is a vehicle 


在 这 里 ， 新 生成 句子 的 目的 并 不 是 作为 原 句 的 奉 换 ， 而 仅仅 是 作为 对 是 
否 存在 上 下 位 关系 的 一 种 诊断 测试 。 所 以 ， 这 只 是 一 种 党 限 的 替换 。 


动词 也 存在 上 下 位 关系 。 例 如 ， 汉 语 中 的 “ 打 ”， 其 下 位 词 有 “ 枝 ， 
fa, THI], Tot, A, $8, 拍打 ， 扑 打 ， 融 ”等 。 


上 下 位 关系 构成 硕大 的 等 级 体系 。 越 在 下 面 的 词 束 越 专 指 ， 也 即 外 
延 束 越 小 。 


下 面 是 从 这 种 等 级 中 抽取 的 片段 : 


信徒 = 教徒 = 佛教 徒 = 僧尼 = 和 疝 王 高 僧 
几何 图 形 = 多 边 形 = 三 角形 = 等 腰 三 角形 = 等 边 三 角形 
5/7] 9H RIH EHE RET LS] 9 59 3 5 T- HE 


SEES TS X H5 82 HIS NIS Ha 2 Kio TA 


数量 -= 物理量 = 标量 二 面积 = 地 积 


反应 = 答 理 = 理 在 = 回答 = 答复 = 回电 


R= iit = Mit ABS 


正确 = 合理 = 公平 = 公正 = 正直 = 刚直 
NBS ET AAS STA FTTH Fah TREU 
无 法 = 力不从心 = 眼 高 手 低 = 志 大 才 芷 


事与愿违 = 适 得 
Hj, DOR T IRER 


4. 整体 一 部 分 关系 


如 采 两 个 词 位 中 ， 一 个 词 位 是 男 一 个 词 位 的 部 分 ， 那 么 ， 它 们 之 间 
就 存在 整体 一 部 分 关系 (whole-part) 。 例 如 ,“ 手 * 和 “虎口 、 手 辟 、 手 
` 手指 ”之 间 束 存在 整体 一 部 分 关系。“ 手 ”十 整体 ,“ 虎 口 、 手 辟 、 手 
` 手指 ”是 “ 手 ” 的 部 分 。“ 键 副 ”" 和 “ 键 ” 之 则 也 存在 整体 一 部 分 关 
, “键盘 "是 整体 ,“ 键 ?是 “键盘 ?的 部 分 。"“ 汽 车 ?和 “方向 盘 、 展 盘 、 芋 
轮 ? 之 间 也 存在 整体 一 部 分 关系 , STE eK, DTUAR E 


轮 "是 部 分 。 


Hsc = Fe ACTH NS 3 Je BA 83 R= LER A 


ZW que pk 


整体 一 部 分 关系 不 仅仅 存在 于 物体 和 空间 中 ， 也 可 以 存在 于 时 间 、 
过 程 中 。 有 了 时 它们 也 与 上 下 位 一 样 构 成 较 深 的 等 级 ， 例 如 , “FHS Ae 
系 = 银 河 系 = 太 阳 系 = 地 球 = 东 半球 = 亚洲 = 中 国 = 海 南 = 南 沙 群 岛 = 曾 
母 瞳 沙 ”。 从 这 个 意义 上 说 , “整体 一 部 分 关系 ”是 一 种 特殊 的 “< 上 下 位 天 
系 ?”， 它 们 之 间 的 区 别 在 于 ， 在 “整体 部 分 关系” 中 ,“ 部 分 词 ” 往 往 不 继 
承 “ 整 体 词 * 的 属性 ， 而 在 “上 下 文 关系 ”中 ,，“ 下 位 词 " 往 往 继承 了 “上 位 
词 ”* 的 某 些 属性 ， 因 此 ， 如 果 X 是 部 分 词 ，Y 是 整体 词 ,“ 整 体 部 分 大 
系 ” 一 般 不 能 满足 缠 涵 式 


This is a X = That is a Y ° 


5. 集合 一 元 素 关 系 


如 采 两 个 词 位 中 ， 一 个 词 位 是 另 一 个 词 位 所 包含 的 元 素 ， 那 么 ， 它 


们 之 间 就 存在 集合 一 元 素 关 系 (setelement) 。 例 如 , “AE ER 
合 , “泰山 、 华 山 、 需 山 、 恒 山 、 衡 山 * 是 “五 岳 ” 的 元 素 ,“ 了 筷 孟 ”是 集 


A, “LP. EPELE NA, UTE ERA, BUM + Aen 
生 ” 的 元 素 。 


有 的 “集合 一 元 素 关 系 ” 与 “整体 一 部 分 关系” 比较 接近 ， 但 是 ，“ 集 合 
一 元 素 关 系 ” 一 般 不 如 “整体 一 部 分 关系” 紧密 。“ 和 集合 一 元 素 关 系 ” 也 可 以 
看 成 是 上 下 位 关系 ”的 一 种 特殊 情况 ， 如 果 X 是 元 素 ，Y 是 集合 , “集合 
TERRA” — BHER KC E EN A 


This is a X > That is a Y ° 


BED ”英语 中 的 词汇 歧义 现象 


He Ge BA a PE MR, EN LAS, WRT] 
翻译 错误 ， 译 文 不 能 正确 地 表示 原文 的 意 轧 ， 也 就 没有 任何 价值 了 ， 所 
以 ,词义 排 卜 是 任何 机 右 翻 译 系统 必须 解决 的 大 问题 。 此 外 ， 词 义 排 上 到 
还 直接 关系 到 信息 检索 、 文 本 分 类 、 语 音 识 别 的 效率 。 


这 里 ， 我 们 首先 分 析 英 语 中 的 各 种 词汇 歧义 现象 ， 然 后 介绍 各 种 词 
义 排 琉 的 方法 : 选择 最 常见 洱 义 的 方法 、 利 用 词类 进行 词义 排 政 的 方 
法 、 基 于 选择 限制 的 方法 、 自 立 的 词义 排 歧 方 法 、 有 指导 的 学 习 方 法 、 
目 举 的 词义 排 歧 方法 、 无 指导 的 词义 排 玻 方法 、 基 于 词典 的 词义 排 政 方 
法 等 。 所 有 这 些 方法 都 需要 知识 ， 不 仅 需要 语言 知识 ， 还 需要 常识 和 世 
界 知识 ， 所 以 ， 所 有 这 些 方法 都 可 以 叫做 "基于 知识 的 词义 排 歧 方 
法 ” (knowledge-based WSD approach) 。 


英语 中 的 名 词 、 人 代词、 动词 、 形 容 词 、 连 接 词 、 介 词 都 存在 下 义 ， 
这 里 举例 介绍 如 下 。 


1. 名 词 中 的 蚊 义 


e 多 义 词 : 具有 多 个 涵义 的 词 位 叫做 多 义 词 ， 多 义 词 中 的 各 个 酒 义 
征 有 联系 的 。 


例如 ， 在 句子 John is abachelor 中 ，bachelor 有 两 个 不 同 的 意思 ， 一 
个 意思 是 “单身 汉 ” (unmarried man) , 个 意思 是 “学 士 ” (first 
university degree) ， 从 而 造成 歧义 。 我 们 可 以 把 这 种 情况 写 为 如 下 的 形 
式 : 


John is an unmarried man. 
John holds a first university degree. 


> John is a bachelor 


这 表示 ，bachelor 是 一 个 多 义 词 ， 它 的 不 同 的 意思 ， 由 箭头 前 面 的 两 个 
句子 表示 出 来 。 


其 他 关于 名 词 蚊 义 的 例子 还 有 : 


1) John is a medical doctor. 
John is a doctor of philosophy. 


> John is a doctor . 


Doctor 的 涵义 可 以 是 “医生 ”， 也 可 以 是 “博士 >， 从 而 造成 歧义 。 


2) He is looking for his drinking glasses. 
He is looking for his reading glasses. 


^ He is looking for his glasses . 


Glasses iK X. n] AEA, thal eRe”, PTUS IBEX. ^ 


3) Here is a small lamb. 
Here is a small amount of lamb. 


> Here is a little lamb . 


LambR']& X. nf EAE», tuu AEA”, MATERE ° 


e 同形 异 义 词 : 词 形 相同 而 意思 不 同 的 词 叫 同形 异 义 词 ， 同 形 异 义 
词 中 的 各 个 涵义 之 间 没 有 联系 。 例 如 ， 


1) He looked at the river bank.. 
He looked at the money bank. 
— He looked at the bank . 


Bank 的 涵义 可 以 是 < 河岸 *， 也 可 以 是 银行"， 从 而 造成 歧义 。 前 面 我 们 
说 过 ， 据 词 源 学 家 考证 ;: “河岸 "的 意义 来 自 斯 堪 底 纳 维 亚 语 , “银行 "的 
意义 来 自 意大利 语 。 


2) The period of sleep of the army was insufficient. 
The remainder of the army was insufficient. 


^ The rest of the army was insufficient. 


Rest 的 洱 义 可 以 是 “睡眠 时 间 ”， 也 可 以 是 “剩余 物资 "， 从 而 造成 必 义 。 


从 计算 机 处 理 语言 的 角度 来 看 ， 多 义 词 和 同形 异 义 词 在 实质 上 没有 
区 别 ， 因 此 ， 在 机 器 翻译 中 ， 我 们 没有 必要 区 分 它们 ， 把 它们 一 律 作为 


词汇 歧义 来 处 理 。 
e 名 词 的 单数 形式 和 复数 形式 相同 而 造成 的 收 义 : 例如 ， 


1) I saw this sheep graze in the field. 
I saw these sheep graze in the field. 


^ I saw the sheep graze in the field. 


Sheep 的 单数 形式 和 复数 形式 相同 ， 所 以 ， 难 于 辨别 它 的 数 ， 从 而 造成 
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2) They put the condemned person to death. 
They put the condemned persons to death. 


^ They put the condemned to death. 


Condemned 这 个 过 去 分 词 形式 作为 名 词 使 用 ， 难 于 辨别 它 是 单数 还 是 复 
数 ， 产 生 歧 有 异 。 


e 缩写 词 造成 的 歧义 ;例如 ， 


1) He is a news reporter from Australian Broadcasting Company. 
He is a news reporter from American Broadcasting Company. 


^ He is a news reporter from ABC . 


缩写 词 ABC 的 渔 义 可 以 是 澳大利亚 广播 公司 ， 也 可 以 是 美国 广播 公司 ， 
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2) In this book, he talks about the World Without War. 
In this book, he talks about the World Wide Web. 
> [n this book, he talks about WWW . 


缩写 词 WWW 的 洱 义 可 以 是 “没有 战争 的 世界 ”， 也 可 以 是 “万 维 网 *， 从 
而 造成 歧义 。 


2. 代词 中 的 歧义 


例如 ， 


1) Nobody said he himself was wrong. 
Nobody said the person in question was wrong. 


^ Nobody said he was wrong. 


代词 he 客 竟 是 指 “ 说 话 人 自己 ”还 是 指 “ 所 说 的 另 一 个 人 ”， 难 于 分 辨 M 
而 造成 收 义 。 
2) He killed himself by shooting 


He shot personally. 
^ He shot himself . 


Himself Ret “BOWE”, He BA”, Dee AREA 
Blu". MET opt, AAT te BI o 
3) Everyone was eating a large cake together. 


Everyone was eating a large cake respectively. 


^ Everyone was eating a large cake. 


Everyone E T8 “A AF [R]lz, — ANRE”, DEBEAT — T KE 
TE". XEM ER, MATTE IEE XL ° 


4) Every sailor loves his own girl. 
Every sailor loves the same girl. 


> Every sailor loves a girl. 


Every 是 指 “ 每 一 个 海员 都 喜欢 目 己 的 姑娘 ”， 还 是 “每 一 个 海员 都 喜欢 
一 个 姑 娟 ”， 难 于 分 辨 ,从 而 造成 歧义 。 


3. 动词 中 的 旷 义 


例如 ， 


1) Iheard the child weeping. 
I heard the child shouting. 
^ [heard the child crying . 


Crying 的 镁 义 可 以 是 “器 ”， 也 可 以 是 “喊叫 ”， 从 而 造成 歧义 。 


2) John is pulling a cart. 
John is making a picture of a cart. 


^ John is drawing a cart 


Drawing i X. uf vehi”, qup ble sri”, Mofes. ° 


3) They never saw the wood with their own eyes. 
They never cut the wood with a saw. 


^ They never saw the wood. 


Saw 的 涵义 可 以 是 “看 ”， 也 可 以 是 “ 饥 ”， 从 而 造成 收 义 。 


4. 形容 词 中 的 歧义 


例如 ， 


1) John is a mechanic with little money. 
John is a mechanic who lacks competence. 


^ John is a poor mechanic. 
Poor fi X. nf De AA”, thay De A”, ALT te CK X. 


2) She is a student who is a Japanese. 
She is a student who studies Japanese. 


^ She is a Japanese student. 


JapaneseH i X. nf EAZE* H RB", thay bie A ARAN”, ALT te ACI o 


3) He tried to speed up the ship. 
He tried to fasten the ship. 
^ He tried to make the ship fast . 


Fast 的 澜 义 可 以 是 “ 快 "， 也 可 以 是 “ 拉 紧 ”"， 从 而 造成 歧义 。 


4) That was a clever idea. 
That was a stupid idea. 


> That was a brilliant idea. 


Brilliant 的 泗 义 可 以 古 “ 聪 明 的 "， 也 可 以 是 “ 思 夸 的 "， 从 而 造成 歧义 。 


5) He is a salesman who is sweet. 


He is a man who sells sweets (in this case, ‘sweets’ is a noun). 


> He is a sweet salesman. 


Sweet HJ X. n] Lhe ASH”, thay em”, MEREEN © 


5. REBT PAR XC 


例如 ， 


1) When it becomes cold, we do not go outside. 
Because it became cold, we do not go outside. 


^ As it became cold, we do not go outside. 
Asi i X. n] DES PARR’, tup bie”, Aeg X. o 


2) When was working at night in the library, I saw Mary often 
Although I was working at night in the library, I saw Mary often. 
^ While I was working at night in the library, I saw Mary often. 


While 的 涵义 可 以 十“ 当 什么 时 候 ”， 也 可 以 是 “尽管 ?"， 从 而 造成 歧义 。 


3) From the time when I lost my glasses yesterday till now, I haven't 
been able to do any work. 

Because I lost my glasses yesterday, I haven't been able to do any 
work. 


^ Since I lost my glasses yesterday, I haven't been able to do any 


work. 


Since iR X. n] Lhe Mfr Ben, tha Doe”, Mate iube». o 


6. 介词 中 的 歧义 


例如 ， 


1) The reminiscence written by my father was very interesting. 
The reminiscence about my father was very interesting. 


^ The reminiscence of my father was very interesting. 


Of my fatherHi MAT DAZ "3 A0 28 8 BJ", ten] De REAR”, M 
而 造成 歧义 。 


2) John stays with Tom. 
John agrees with Tom. 


> John is with Tom. 


With Tom 的 洱 义 可 以 是 “ 跟 Tom 在 一 起 "， 也 可 以 是 “同意 Tom 的 意见 ”， 
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3) John hits the man by means of the stick. 
John hits the man who carried the stick, 


> John hits the man with the stick. 


With the stick 是 一 个 介词 短语 ， 它 可 以 修饰 名 词 短 语 the man， 也 可 以 修 
饰 动 词 hits， 从 而 造成 歧义 。 这 样 的 句法 结构 歧义 与 介词 with 具 有 不 同 的 
泗 义 有 天， 所 以 ， 也 可 以 看 成 是 由 于 with 泗 义 的 不 同 而 造成 的 歧义 。 词 
X HE (Word Sense Disambiguation， 简 称 WSD) 是 自然 语言 计算 机 处 
理 中 的 一 个 很 困难 的 问题 。 


4) The damage was brought about by the river. 


The damage was done beside the river. 


^ The damage was done by the river. 
By 的 涵义 可 以 是 “由 于 ”， 也 可 以 是 “在 什么 劳 边 *”， 从 而 造成 歧义 。 


由 以 上 的 分 析 可 以 看 出 ， 英 语 中 的 词汇 于 义 现象 分 布 很 广 ， 涉 及 到 
各 主要 的 词类 ， 而 且 ， 不 同 的 此 义 都 有 很 强 的 特异 性 ， 很 不 容易 发 现 一 
般 性 的 规律 。 


当然 ， 对 于 人 来 说 ， 要 判定 词汇 蚊 义 并 不 困难 ， 人 们 可 以 根据 语言 
环境 或 上 下 文 ， 在 多 义 词 的 多 个 泗 义 中 选择 最 恰当 的 涵义 。 但 是 ， 对 于 
计算 机 来 说 ， 要 从 多 个 涵义 中 进行 正确 的 选择 ， 却 古 非 常 困难 的 事情 。 


BN 几 种 重要 的 词义 排 收 方法 


由 于 多 义 词 是 任何 语言 中 都 普 所 存在 的 现象 ， 而 多 义 词 中 诸多 的 词 
义 分 布 又 很 不 容易 找到 一 般 的 规律 ， 多 义 词 的 目 动 排 歧 涉及 到 上 下 文 因 
素 、 语 义 因素 、 语 境 因 素 ， 还 涉及 到 甚至 日 常生 活 中 的 常识 ， 而 这 些 因 
素 的 处 理 ， 恰 恰 十 计算 机 最 感 束 手 的 问题 。 所 以 ， 词 义 排 层 是 目 然 语言 
计算 机 处 理 研 究 中 的 一 个 特别 困难 的 问题 。 


早 在 机 顺 翻 译 刚 刚 问 世 的 时 候 ， 美 国 著名 数理 逻辑 学 家 巴 希 勒 在 
1959 年 就 指出 ， 全 自动 高 质量 的 机 器 翻译 (Fully Automatic High Quality 
Machine Translation， 人 简称 FAHQMT) 是 不 可 能 的 ， 他 说 明 ，FAHQMTI 不 
仅 在 当时 的 技术 水 平 下 是 不 可 能 的 ， 而 且 ， 在 理论 原则 上 也 是 不 可 能 
Hy o 


他 举 出 了 如 下 简单 的 英语 片段 ， 说 明 要 在 上 下 文中 发 现 多 义 词 pen 
的 正确 译文 是 非常 困难 的 事情 。 


John was looking for his toy box. Finally he found it. The box was in the 


pen . John was very happy. 
他 的 理由 如 下 : 


(i) pen 在 这 里 只 能 翻译 为 “游戏 的 围栏 ” (play-pen) ， 而 绝对 不 能 
翻译 为 书写 工具 “钢笔 "。 


(ii) 要 确定 pen 的 这 个 正确 的 译文 是 翻译 好 这 段 短文 的 关键 所 在 。 


Gii) 而 要 确定 这 样 的 正确 译文 依赖 于 计算 机 对 于 周围 世界 的 一 般 
知识 。 


(iv) 但 是 我 们 没有 办 法 把 这 样 的 知识 加 到 计算 机 中 去 。 
可 见 ， 词 义 排 政 问题 一 开始 就 困扰 着 刚刚 彰 李 的 机 需 翻 译 研 究 。 


从 1959 年 到 现在 已 经 50 多 年 了 ， 学 者 们 在 探索 多 义 词 排 政 的 研究 中 
做 了 大 量 的 工作 。 尽 管 词义 排 皮 的 问题 距离 彻底 解决 还 非常 遥远 ， 但 
征 ， 从 这 50 多 年 的 成 承 已 经 可 以 让 我 们 看 到 硕 望 的 频 光 。 


2007 年 ， 陈 (Chan Y. S) 等 在 Procedings of the 45" Annual Meeting 
of the Association for Computational Linguistics (ACL) 上 发 表 了 “词义 排 歧 
改善 统计 机 器 翻译 ”(Weord Sense Disambiguation Improves Statistical 
Machine Translation) 的 文章 ， 证 明 词 义 排 歧 可 以 显著 地 提高 统计 机 器 
翻译 的 准确 率 ， 从 而 把 词义 排 歧 作为 自然 语言 处 理 的 一 个 重点 问题 来 研 
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下 面 ， 我 们 介绍 几 种 重要 的 词义 排 歧 的 方法 : 


1. 选择 最 种 见 渔 义 的 方法 


词义 排 上 疏 的 最 简单 的 统计 技术 是 找 出 有 歧义 的 单词 在 语料库 中 具有 
最 高 频 度 的 涵义 ， 并 把 这 个 涵义 选择 为 缺 省 值 (default) ， 也 就 是 把 最 
第 见 的 洱 义 选择 为 有 歧义 单词 的 当前 泗 义 。 这 样 的 方法 叫做 “选择 最 常 
见 涵义 的 方法 ”(Most Frequency Approach) 。 这 种 方法 需要 首先 对 语 料 
库 进 行 语义 标注 ， 然 后 从 这 个 具有 语义 标注 的 语料库 中 ， 选 择 有 关 单 词 
的 最 常见 的 涵义 作为 排 上 下 结果 。 例 如 ， 在 句子 “Pupils from a school in 
north Beijing met with a film star” 中 ，pupil，school，fim，star 等 单词 都 
是 有 歧义 的 。Pupil 的 涵义 可 以 是 “学 生 ”， 也 可 以 是 “瞳孔 ”， 其 最 冲 见 的 
涵义 是 “学 生 ”， 语 料 库 中 的 标记 是 STUDENT; school 的 泣 义 可 以 是 是 “学 
校 *»， 也 可 以 是 “ 鱼 群 ”或 “水 生动 物 群 "， 其 最 常见 的 涵义 是 “学 校 >， 语 料 
库 中 的 标记 是 INSTITUTION; fm 的 涵义 可 以 是 “电影 *， 也 可 以 是 “纤维 
薄膜 ”， 其 最 常见 的 涵义 是 “电影 ”， 语 料 库 中 的 标记 是 SHOW; star 的 涵 
义 可 以 是 “电影 明星 ”>， 也 可 以 是 “天 上 的 星星 ”>， 其 最 利 见 的 涵义 是 “电影 
明星 ”， 语 料 库 ER o 我 们 根据 语料库 选择 最 常见 
— 得 出 如 下 的 结果 : 


Pupils/STUDENT from/SOURCE a school/INSTITUTION in 
north/POSITION Beijing/CITY met/COME TOGETHER 
with/PARTICIPANT a film/SHOW star/ENTERTAINER. 


根据 句子 中 多 义 词 的 最 闻 见 洱 义 ， 这 个 句子 的 意思 应 该 是 : 


“来 目 北 京北 部 学 校 的 学 生 们 与 电影 明星 见面 。” 


这 样 便 得 到 了 这 个 句子 中 的 多 义 词 的 词义 排 政 的 结果 。 


在 标注 了 语义 的 大 规模 语料库 中 ， 我 们 可 以 统计 出 多 义 词 最 常见 涵 
义 ， 并 把 这 个 最 常见 的 涵义 作为 该 多 义 词 的 “ 缺 省 值 ”(defaultt) 。 例 
如 ， 在 这 样 的 语料库 中 ， 如 果 pupil 作 为 STUDENT 的 洱 义 出 现 的 次 数 是 1 
000 个 词 次 ， 而 作为 BODY_PART (身体 的 一 部 分 ， 即 “瞳孔 ”) 的 涵义 出 
现 的 次 数 是 50 词 次 ， 那 么 ， 根 据 选择 最 常见 涵义 的 方法 ， 对 于 其 他 没有 
做 过 语义 标注 的 文本 中 的 pupil， 都 要 一 律 标 注 为 STUDENT， 哪 怕 它 在 
某 个 文本 中 的 涵义 应 该 是 BODY_PART。 显 而 易 见 ， 这 种 选择 最 常见 酒 
义 的 方法 是 有 局 限 性 的 。 


有 的 学 者 通 过 试验 证 明 ， 使 用 这 种 简单 的 方法 给 通用 英语 做 语义 标 
注 ， 其 准确 率 大 约 为 70%。 严 格 地 说 ， 对 于 封闭 文本 ， 准 确 率 为 
67.5%， 对 于 开放 文本 ， 准 确 率 为 64.8%。 


早期 的 机 需 翻 译 系统 没有 词义 排 玻 的 功能 ， 虽 然 机 器 词典 中 的 多 义 
词 都 列举 出 各 种 不 同 的 义 项 ， 但 实际 上 系统 在 运行 时 只 是 选择 排列 在 第 
一 位 的 那个 最 常见 的 义 项 。 这 样 的 办 法 虽然 能 够 处 理 一 些 多 义 词 ， 达 到 
一 定 的 排 歧 目的 ， 但 是 ， 词 义 排 上 收 的 效率 不 高 ， 这 是 早期 机 器 翻译 系统 
译文 质量 低劣 的 重要 原因 之 一 。 例 如 ， 在 上 面 巴 硕 勒 举 出 的 例子 中 ， 由 
于 pen 最 音 见 的 词义 是 “钢笔 >， 如 有 末 把 pen 翻 译 成 < 钢笔 >， 那 么 <The box 
was in the pen.” 就 势 作 要 翻译 成 “盒子 在 钢笔 中 *， 这 样 的 翻译 结果 显然 
是 很 可 笑 的 。 


2. 基于 规则 的 词义 排 旷 的 方法 


基于 规则 的 词义 排 上 的 方法 主要 有 : 利用 词类 进行 词义 排 歧 的 方 
法 、 利 用 选择 限制 进行 词义 排 玫 的 方法 、 利 用 优选 关系 进行 词义 排 层 的 
方法 。 下 面 分 别 加 以 介绍 。 


e 利用 词类 进行 词义 排 歧 的 方法 


有 些 多 义 词 的 词义 与 它们 所 属 的 词类 有 关 。 不 同 的 词义 往往 属于 不 
同 的 词类 。 因 此 ， 如 采 我 们 能 够 确定 这 些 多 义 词 的 词类 ， 词 义 排 歧 的 问 
rel LH) UE To 


例如 ， 


face: 当 face 是 动词 时 ， 它 的 词义 是 “ 面 对 ”， 当 face 是 名 词 时 ， 它 的 
词义 是 “面孔 ”。 在 “The house faces the park” 中 ，faces 前 面 为 名 词 词 
组 “the house”， 后 面 也 为 名 词 词组 “the park”， 可 判定 为 动词 ， 因 而 它 的 
词义 是 “ 面 对 ， 整 句 的 意思 是 “房子 面 对 公 园 ”*”。 在 “She pulled a long face 
.2 中 ，face 前 面 是 形容 词 ， 可 判定 为 名 词 ， 它 的 词义 是 “面孔 ”， 整 句 的 意 
思 是 “她 拉 长 了 面孔 ”。 


May (第 一 个 字母 M 大 写 ) : 当 May 是 助动词 时 ， 它 的 词义 是 “可 
以 ”《〈 在 句子 开头 ， 第 一 个 字母 大 写 ， 在 其 他 情况 下 ， 第 一 个 字母 不 大 
£j) ， 当 May 是 名 词 并 且 第 一 个 字母 大 写 时 ， 它 的 词义 是 “五 月 ”。 
在 “May I help you?” 中 ，May 是 助动词 。 因 而 它 的 词义 是 “可 以 ”， 整 个 句 
子 的 意思 是 “我 可 以 帮助 你 吗 ? ”在 “May Day is the first day of May.” , 
May 是 名 词 ， 因 而 它 的 词义 是 “五 月 "， 整 个 句子 的 意思 是 “五 月 一 日 是 五 
月 的 第 一 天 ”。 


can: 当 can 是 助动词 时 ， 它 的 词义 是 “能 够 ">， 当 can 是 名 词 时 ， 它 的 
意思 是 “ 饶 头 ”。 在 “She can speak German.” 中 ，can 人 处 于 动词 speak 前 面 ， 


人 称 代词 she 的 后 面 ， 可 判定 为 是 助动词 ， 因 而 它 的 词义 是 “能 够 >"， 整 个 
句子 的 意思 是 “她 能 够 说 德语 >。 在 “He opened a can of beans.” 中 ，can 前 
面 是 不 定 冠 词 ， 后 面 是 介词 ， 可 判定 为 名 词 ， 因 而 它 的 词义 是 “ 鳅 头 ”， 
整个 句子 的 意思 是 “他 打开 一 个 豆子 钢 头 ”。 


will:， 当 will 十 助动词 时 ， 它 的 词义 是 “将 要 ”， 当 will 是 名 词 时 ， 它 
的 意思 是 “意志 ”。 “It will rain tomorrow.” 中 ，will 前 面 是 代词 ， 后 面 是 
动词 ， 可 判定 为 助动词 ， 因 而 它 的 词义 是 "将 要 ”， 整 个 句子 的 意思 
E“ RK FM” o Æ “Free will makes us able to choose our way of 
life* 中 ，will 前 面 是 形容 词 ， 后 面 是 第 三 人 称 现在 时 动词 ， 可 判定 为 名 
词 ， 因 而 它 的 词义 是 “意志 *， 整 个 句子 的 意思 是 “自由 的 意志 使 得 我 们 
能 够 选择 我 们 的 生活 方式 ”。 


kind: 当 kind 是 名 词 时 ， 它 的 意思 是 “种 类 ”， 当 kind 是 形容 词 时 ， 它 
的 意思 是 “亲切 ”。 在 “I like that kind of book.” 中 ，kind 在 指示 词 that 之 


后 ， 在 介词 of 之 前 ， 可 判定 为 名 词 ， 因 而 它 的 词义 是 “种 类 ”， 整 个 句子 
的 意思 是 “我 喜欢 这 种 书 ”。 在 “It was very kind of you to do it.” 中 ，kind 在 
副词 very 的 后 面 ， 介 词 of 的 前 面 ， 可 判定 为 形容 词 ， 因 而 它 的 词义 是 “ 亲 
切 >， 整 个 句子 的 意思 是 “你 做 这 件 事 显 得 非常 杀 切 ”。 


如 采 我 们 设计 一 个 高 效率 的 词性 标注 系统 ， 可 以 正确 地 决定 兼 类 的 
多 义 词 的 词类 ， 那 么 ， 我 们 就 可 以 利用 标注 正确 的 词类 ， 来 决定 多 义 词 
的 词义 ， 从 而 达到 词义 排 玻 的 目的 。 


可 十， 当 同 一 个 词类 的 多 义 词 还 存在 多 个 不 同 的 词义 的 时 候 ， 这 
种 “以 词类 决定 词义 ”的 方法 就 显得 无 能 为 力 了 ， 因 为 在 判定 了 词类 之 
后 ， 还 需要 对 不 同 的 词义 进行 选择 。 


例如 ，works 这 个 多 义 词 可 兼 属 动词 和 名 词 ， 当 它 是 动词 的 时 候 ， 
它 的 词义 是 “工作 ”， 当 它 是 名 词 的 时 候 ， 它 的 词义 可 以 是 “工厂 ”， 也 可 
以 是 “著作 ”。 在 句子 “My daughter works in an office.” 中 ，works 处 于 名 词 
词组 之 后 ， 介 词 之 前 ， 可 判定 为 动词 ， 因 而 它 的 词义 是 “工作 ”， 整 个 句 
子 的 意思 是 “我 女儿 在 一 个 办 公 室 工作 ”。 


可 是 ， 当 判定 works 为 名 词 的 时 候 ， 它 的 词义 还 没有 最 后 决定 ， 这 
就 会 出 现 两 难 的 全 诊 局面。 在 句子 “It is a gas works. ”和 人 句子 “] read the 
works of Shakespears.” 中 ，works 都 可 以 判定 为 名 词 ， 如 果 只 是 根据 词 
类 ， 我 们 决定 不 了 前 句 中 works 的 词义 是 “工厂 ”， 后 句 中 的 works 的 词义 
是 “著作 ”。 


这 时 ， 我 们 还 需要 根据 上 下 文 的 选择 限制 来 排 疏 。 比 如 说 ， 如 果 我 
们 规定 ，works 与 表示 燃料 的 名 词 连 用 ， 可 判定 其 词义 古 “ 工 厂 ”， 妆 
works 与 作家 的 名 字 连 用 ， 可 判定 其 词义 是 “著作 ”， 那 么 ， 我 们 束 可 以 
根据 这 样 的 选择 限制 来 进行 词义 排 上 收 了 。 


e 利用 选择 限制 进行 词义 排 歧 的 方法 


选择 限制 (selectional restriction) 和 语义 类 型 的 分 类 (type 
hierarchies) 是 词义 排 歧 的 主要 的 知识 源 。 在 语义 分 析 中 ， 它 们 被 用 来 
删除 不 恰当 的 语义 从 而 减少 收 义 的 数量 。 


最 早 研究 选择 限制 的 是 生成 语言 学 家 卡 效 和 弗 托 。 


例如 ， 形 容 词 handsome 有 三 个 意思 : 一 是 “美观 的 ”， 二 是 “慷慨 
By", 三 是 “相当 大 的 *。 


第 一 个 意思 只 能 指 人 或 指 人 工 制品 ， 例 如 ， 可 以 说 handsome fellow 
(英俊 的 人 ) ` handsome building (美观 的 房子 ， 因 此 ， 其 选择 限制 


为 <(Human)V(ArtifacD>， 其 中 , “V” 表 示 逻 辑 析 取 (“或 ”) 


第 二 个 意思 只 能 指 行为 ， 例 如 ， 可 以 说 handsome treatment (慷慨 的 
待遇 ) ， 其 选择 限制 为 <(conduct)>。 


第 三 个 意思 只 能 指数 量 ， 例 如 ， 可 以 说 handsome sum (可 观 的 数 
目 ) ， 其 选择 限制 为 <(Amount)>。 


如 果 把 handsome fellow 理 解 为 “可 观 的 人 ”， 就 违反 了 选择 限制 。 


不 难看 出 ， 选 择 限制 在 研究 词 与 词 之 间 的 搭配 关系 时 是 很 有 用 的 。 


乔 姆 斯 基 在 他 的 标准 理论 中 ， 接 受 了 “选择 限制 ”的 概念 ， 我 们 认 
为 ， 选 择 限 制 是 生成 语言 学 (generative linguistics) 的 一 个 最 主要 成 


1987 年 ， 赫 尔 斯 特 (G. Hirst) 把 生成 语言 学 中 选择 限制 的 概念 应 用 
于 目 然 语言 计算 机 处 理 。 我 们 在 这 里 介绍 赫 尔 斯 特 的 工作 。 


例如 ，dish 十 一 个 多 义 词 ， 怎 样 来 确定 它 的 含义 呢 ? 
我 们 来 研究 下 面 的 一 段 话 : 


“In our house, everybody has a career and none of them includes 


washing dishes ,” he says. In her tiny kitchen at home, Mr. Chen works 


efficiently, stir-frying several simple dishes , including braised pig's ears 


and chicken livers with green peppers. 

(他 说 道 ,“ 在 我 们 的 房子 里 ， 每 一 个 人 都 有 自己 的 事情 ， 可 以 这 
些 事情 不 包括 洗 碎 子 。” 在 她 的 小 厨房 里 ， 陈 先生 干 得 很 有 成 效 ， 
他 炒 几 个 简单 的 荣 看 ， 包 括 炖 猪 耳 条 和 青椒 炒 鸡 肝 。) 


前 句 中 的 dishes 是 用 于 吃饭 的 物理 客体 (physical object) ， 后 句 中 
的 dishes 则 是 菜 肴 。 它 们 的 选择 限制 各 不 相同 ， 前 者 是 wash 的 PATIENT 
( 受 事 ) ， 它 应 该 具有 可 洗 性 (washable) ， 它 的 意思 是 “碟子 ”， 后 者 
是 stir-fry 的 PATIENT ( 受 事 ) ， 它 应 该 具有 可 食性 (edible ， 它 的 意思 
是 “ 荣 肴 ”。 谓 词 选 择 符合 论 元 (argument) 语义 限制 的 正确 含义 ， 删 除 
不 能 匹配 的 含义 。 


由 此 可 见 ， 使 用 选择 限制 实际 上 是 一 种 “ 观 其 伴 而 知 其 意 ” (You 
shall know a word by the company it keeps.) 方法 。 


使 用 选择 限制 时 ， 我 们 一 般 要 确定 多 义 词 的 上 位 概念 ， 然 后 根据 上 
位 概念 与 句子 的 中 心 谓词 的 搭配 关系 来 选择 这 个 多 义 词 的 恰当 泗 义 。 


例如 ， 我 们 来 研究 如 下 的 句子 : 


a. The crane flew over plain. (crane. fr C = bird) 
b. The builder operated the crane . (crane 的 上 位 概念 = 


machine) 


EIS SAF, cranezÉ— T £ Xj, EAR DEB”, ix 
时 ， 它 的 上 位 概念 是 bird (3) ， 它 的 涵义 也 可 以 是 “起 重 机 >”， 这 时 ， 
它 的 上 位 概念 是 machine (机 器 ) 。 


句子 a 的 中 心动 词 flew 要 求 它 的 主语 是 bird， 这 样 的 选择 限制 不 容许 
它 的 主语 是 machine， 因 此 ， 句 子 a 中 的 crane 的 渔 义 应 该 是 “ 箱 ”， 而 不 
征 “ 起 重 机 ”。 


同 理 ， 句 子 b 的 中 心动 词 operated 要 求 它 的 宾语 是 machine， 这 样 的 
选择 限制 不 容许 它 的 宾语 是 bird， 因 此 ， 人 句子 b 中 crane 的 涵义 应 该 是 “起 
mL. mI o 


美国 普林斯顿 大 学 米 勒 (Miller) 等 设计 的 “ 词 网 ”(WordNet) 用 同 
义 词 集 (Synset) 把 英语 中 的 单词 组 织 起 来 ， 表 示 单 词 之 间 的 复杂 的 语 
义 关系 ， 我 们 可 以 根据 词 网 中 的 语义 关系 来 建立 语义 层级 关系 ， 并 在 机 
器 词典 中 存储 多 义 名 词 的 语义 类 型 信息 (type) 和 动词 的 选择 限制 信息 

(selectional restriction) ， 就 可 以 使 用 这 些 信 息 来 进行 词义 排 歧 。 


例如 ， 对 于 上 面 的 例子 ， 我 们 可 以 建立 如 下 的 语义 层级 关系 图 ， 并 
在 有 关 结 点 上 标 上 语义 类 型 的 信息 : 


Object 
m nili 
animate ln" 
ut TES "d bcm 
| 
crane | crane 2 


图 2.16 语义 层级 关系 图 


在 词典 中 ， 我 们 可 以 存储 如 下 的 信息 : 


crane (type: cranel) 

crane (type: crane2) 

builder (type: human) 

operate (subj: human, obj: machine) 
fly (subj: bird) 


从 词典 中 可 以 看 出 ， 动 词 operate 的 选择 限制 是 : 主语 的 语义 类 型 为 
human， 宾 语 的 语义 类 型 为 machine; 动词 人 fy 的 选择 限制 是 : 主语 的 语义 
类 型 为 bird ° 


根据 这 些 信息 ， 计 算 机 就 可 以 和 目 动 地 选择 多 义 词 的 恰当 洱 义 ， 达 到 
词义 排 玻 的 目的 。 


例如 ， 根 据 上 述 的 选择 限制 ， 可 以 目 动 地 判定 句子 
The crane flew over plain 
中 的 crane 是 乌 类 : E; 
并 目 动 判定 句子 
The builder operated the crane 
中 的 crane 是 机 巍 : 起 重 机 。 


如 果 我 们 在 语义 层级 关系 图 的 边 上 使 用 谓词 isa”，“has_part" 等 作为 
标记 ， 那 么 ， 我 们 就 可 以 得 到 一 个 语义 框架 图 (semantic frame) 。 如 下 
图 所 示 : 


使 用 语义 框 染 图 中 的 信息 ， 可 以 帮助 我 们 判定 在 多 义 词 的 两 个 或 多 
个 涵义 中 ， 哪 一 个 涵义 是 最 符合 句子 在 语义 上 的 要 求 ， 从 而 达到 词义 排 
歧 的 目的 。 人 句子 中 多 义 词 优 选 的 涵义 是 与 该 多 义 词 相 结合 的 单词 泗 义 在 
语义 距离 (semantic distance) 上 最 接近 的 涵义 。 


那么 ， 怎 样 来 确定 语义 框 洪 图 中 结 点 之 间 的 语义 距离 呢 ? 


我 们 要 在 语义 框架 图 中 表示 谓词 的 每 一 个 边 上 给 一 个 权 值 
(weight) ， 然 后 使 用 标准 的 最 短路 径 算法 来 计算 语义 距离 ， 取 与 相应 
问题 有 关 的 结 点 之 间 的 最 小 权 值 的 语义 距离 作为 优选 的 结果 。 


例如 ， 我 们 来 研究 wing, bird#lcraneH PN MR XH 38 EZR : 


[instance_of: wing, 
isa: physical object| 
[instance of: bird, 

isa: animal, 

has. part: wing] 
[instance of: cranei, 

isa: bird] 
[instance of: crane2, 


isa: machine] 
cranel 的 涵义 是 “ 箱 ”，crane2 的 涵义 是 “起 重 机 ”。 


这 些 框架 可 以 参看 图 2.17。 


physical. object 


isa isa 
isa 


wing animal machine 
has part isa | isa 
bird crane 2 
isa 
crane 1 


图 2.17 语义 框架 


PRI 


我 们 假定 各 个 谓词 的 权 值 如 下 : 


isa=0.1 isa'=0.95 has part=0.3 has part! = 0.8 


REB, isa! 表示 isa 的 逆 关 系 (第 头 方向 相反 ) ，has_partl 表示 
has_part 的 闻 关 系 ， 其 意思 是 part_of。 方 同 相 反 的 连接 的 权 值 是 不 同 的 。 


两 个 结 点 a 和 b 之 间 的 语义 距离 用 D(a, b) 表 示 ，D(a, b) 按 下 面 的 公式 
计算 : 


D(a, b) = min (d(a, b), d(b, a)) 


这 里 ，d(x, y) 表 示 结 点 x 和 y 之 间 的 语义 距离 ， 结 点 a 和 b 之 间 的 语义 距离 
取 d(a,b) 和 d(b, a) 的 最 小 值 。 


现在 ， 我 们 根据 图 2.17 中 的 语义 框 染 图 ， 通 过 计算 语义 距离 的 方 
法 ， 对 于 层 义 短语 “crane's wing” 进 行 排 歧 。 


从 图 2.17 中 我 们 得 到 如 下 的 数据 : 


d( wing, cranel ) = has_part + isa = 0.8 + 0.95 = 1.75 
d( wing, crane2 ) = isa + isa + isa ' 


20.1 +0.95 + 0.95 = 2.0 


d( cranel, wing) = isa + has partt = 0.1 + 0.3 = 0.4 
d( crane2, wing) = isa + ias + isa’ 


0.1 + 0.1 + 0.95 = 1.15 
根据 语义 距离 的 计算 公式 ， 我 们 有 : 


IX wing, cranel ) = min ( d( wing, cranel ), d( cranel, wing ) ) 
= min( 1.75, 0.4) = 0.4 
IX wing, crane2 ) = min d( d( wing, crane2 ), d( crane2, wing ) ) 
= min (2.0, 1.15) = 1.15 
我 们 取 最 小 的 语义 距离 D(wing, crane1) 作 为 优选 的 结果 ， 因 此 ， 短 
语 “crane's wing" AS EDI (hit A ESTE Be o 


上 面 讲 的 是 根据 请 词 的 选择 限制 来 排除 多 义 论 元 的 歧义 。 


当 请 词 有 上 收 义 时 ， 我 们 还 可 以 根据 其 论 元 的 语义 来 消除 谓词 的 歧 
X. ^ flan, 


Well, there was the time served green-lipped mussels from New 
Zealand. (5f, AMIE Rin MST = RAAF o ) 

Which airlines serve Denver? ( 哪 一 个 航班 到 Denver? ) 

Which ones serve breakfast? 〈 哪 一 个 航班 供应 早餐 ? ) 


前 句 中 的 serve 要 求 某 种 食物 作为 其 PATIENT， 中 名 中 的 serve 要 求 地 
名 或 者 团体 作为 其 PATIENT ， 后 句 中 的 serve 要 求 某 种 饭局 作为 其 
PATIENT。 如 果 我 们 确信 musseal ，Denver 和 breakfast 都 是 无 下 义 的 ， 那 
么 ， 束 可 以 通过 它们 的 语义 来 消除 谓词 serve 的 卜 义 。 


如 采 谓 词 和 它 的 论 元 都 有 歧义 ， 则 选择 的 可 能 性 大 大 增加 。 例 如 ， 


I'm looking for a restaurant that serves vegetarian dishes . 


serve 有 3 个 涵义 ，dish 有 2 个 涵义 ， 则 这 个 句子 应 该 有 3x2 个 涵义 。 
在 这 种 情况 下 ， 要 根据 谓词 论 元 的 语义 类 型 和 论 元 的 选择 限制 共同 地 决 
定 其 正确 的 选择 。 


这 时 ， 谓 词 serve 要 求 的 论 元 有 "食物 ”, “地 名 或 团体 ”, “饭局 ”3 种 可 
能 性 ， 而 论 元 dish 的 语义 类 型 有 “可 食性 ”和 “可 尝 性 ”两 种 可 能 性 ， 由 
于 “食物 ”与 “可 食性 ”是 相 匹 配 的 ， 因 此 作为 选择 的 结果 ， 如 图 2.18 中 有 
双 稍 头 所 示 ，serve 的 含义 是 “供应 ”*”，dishes 的 含义 是 “食品 ”"， 这 个 句子 
的 意思 应 该 是 “我 正在 找 一 个 供应 素食 品 的 饭馆 ”。 


serve 的 论 元 dish 的 选择 限制 
食物 


地 名 或 团体 
饭局 


图 2.18 涵义 选择 


可 见 ， 基 于 选择 限制 的 词义 排 歧 要 求 在 语义 分 析 中 使 用 两 方面 的 知 
iH: 
。 论 元 的 语义 类 型 分 类 
« 论 元 对 于 谓词 的 选择 限制 。 


这 两 方面 的 知识 都 可 以 从 词 网 (WordNet) 中 获取 。 语 义 类 型 分 类 
的 信息 可 以 有 关 词 的 上 下 位 关系 (hypemymy) 获得 ， 选 择 限 制 的 信息 
通过 把 有 关 词 的 SYNSET 与 谓词 的 论 元 相 联系 的 方法 获得 。 如 果 我 们 从 
词 网 上 获得 了 这 两 方面 的 知识 ， 我 们 束 可 以 利用 选择 限制 来 进行 词义 排 
Bof 


然而 。 选 择 限 制 是 有 局 限 性 的 ， 主 要 表现 在 : 


o 当选 择 限 制 的 一 般 性 太 强 的 时 候 ， 很 难 决定 有 关 词 的 选择 限制 的 
ye FH]; 


例如 ，What kind of dishes do you recommend? 


这 里 ， 我 们 难于 决定 dishes 的 选择 限制 是 “可 尝 性 ”还 是 “可 食性 ”。 


e 当 在 否定 句子 中 的 时 候 ， 人 否定 关系 明显 地 违反 了 选择 限制 ， 但 
征 ， 句 于 的 语义 却 征 合法 的 。 


例如 ，People realized you can't eat gold for lunch if you're hungry. (if 
WADE, TRS to GEIL FS RAZ 9 ) 


句子 中 的 eat gold 显 然 违 反 了 eat 的 选择 限制 ， 因 为 gold 不 具有 可 食 
性 。 但 是 ， 由 于 有 否定 词 cant， 这 个 句子 却 是 完全 合法 的 。 


e 当 人 句子 描 述 的 事件 是 不 寻 篆 的 事件 时 ， 尽 管 违反 了 选择 限制 ， 名 
子 仍 然 是 完全 合法 的 。 


ff| 41, In his two championship trials, Mr. Kulkirni ate glass on an 
empty stomach, accompanied only by water and tea. (在 他 的 两 次 冠军 比赛 
P, RARE SCE SAREE 玻璃 ， 香 食 的 时 候 只 是 喝 点 水 和 茶 。) 


句子 中 glass (玻璃 ) 是 不 具有 可 食性 的 ， 违 反 了 eat 的 选择 限制 ， 可 
和 是， 这 个 句子 仍然 是 合法 的 ， 因 为 库 尔 基 尔 尼 先生 有 是 一 个 特别 的 人 ， 他 
具有 “ 否 食 玻璃 ”这 种 不 寻 第 的 本 事 。 


e 当 句 子 中 出 现 比喻 (metaphor) 或 借 喻 (metonymy) 的 时 候 ， 这 
样 的 比喻 或 借 喻 是 对 选择 限制 的 极 大 挑战 。 


M| Al, If you want to kill the Soviet Union, get it to try to eat 
Afghanistan. 《让 苏联 去 吞并 阿富汗 吧 ， 嘲 死 它 ! ) 


这 时 ， 谓 词 kil 和 eat 的 PATIENT 的 典型 的 选择 限制 都 完全 失效 了 ， 
可 是 ， 这 个 句子 在 语义 上 合法 性 却 是 毋庸 置疑 的 。 


e 利用 优选 关系 进行 词义 排 歧 的 方法 


1987 年 ， 赫 尔 斯 特 指出 ， 所 有 这 些 违反 选择 限制 却 在 事实 上 合法 的 
例子 ， 都 将 导致 词义 排 玻 的 失效 。 因 此 ， 他 建议 ， 与 其 把 选择 限制 看 成 
一 种 硬性 的 规定 ， 不 如 把 它 看 成 是 一 种 优选 关系 (preference) ， 应 该 
把 “优选 ?的 概念 引入 选择 限制 的 研究 中 。 


早 在 1975 年 ， 威 尔 克 斯 就 提出 优选 语义 学 ( preference 


semantics) 。 


他 认为 ， 在 词义 排 琉 的 过 程 中 ， 亢 义 的 取舍 不 要 看 成 是 完全 的 接受 
或 完全 的 拒绝 ， 而 应 该 看 成 是 在 各 种 可 能 的 涵义 中 进行 优选 。 当 单词 彼 
此 结合 的 时 候 ， 优 选 程度 最 高 的 那些 洱 义 被 确定 为 可 接受 的 涵义 ， 而 优 
选 程度 低 的 涵义 则 被 拒绝 。 


例如 ， 在 句子 


The policeman interrogated the crook. 


中 ，crook 是 一 个 多 义 词 ， 它 的 润 义 可 以 是 “ 牧 诗 杖 *»， 也 可 以 是 “骗子 ”， 
而 动词 interrogated 优 选 主语 为 human， 优 选 宾语 也 为 human， 表 示 如 下 : 


Interrogate (subject: human, object: human) 


当 计算 机 处 理 这 个 句子 的 时 候 ， 因 为 宾语 的 语义 类 型 以 human 为 优选 ， 
所 以 ，crook 的 涵义 应 该 是 < 统 子 ”， 而 不 是 “牧羊 杖 ”。 


威 尔 克 斯 把 词义 排 歧 的 过 程 看 成 是 一 个 语义 的 优选 过 程 ， 显 然 更 加 
符合 实际 情况 。 当 句子 中 出 现 比喻 或 借 喻 的 时 候 ， 如 采 使 用 语义 优选 的 
方法 ， 可 能 取得 比较 理想 的 词义 排 歧 结果 。 


与 威 尔 克 斯 的 优选 语义 学 理论 的 思路 相似 ， 雷 斯 尼克 (Resnik) 于 
1997 年 提出 了 “选择 关联 度 ” (selectional association) 的 概念 。 


选择 关联 度 是 在 谓词 与 该 谓词 所 文 配 论 元 的 类 别 之 间 的 关联 强度 的 
一 种 概率 测度 。 雷 斯 尼克 把 词 网 WordNet 中 上 下 位 关系 (Hypernymy) 
与 标注 语料库 中 的 谓词 一 论 元 关系 结合 起 来 ， 从 而 推算 选择 关联 的 强 
度 o 


雷 斯 尼克 在 经 过 句法 剖析 的 语料库 中 目 动 获取 Verb-Object, Subject- 
Verb, Adjective-noun 等 句法 结构 的 语义 优选 ， 用 来 消除 动词 、 名 词 、 形 
容 词 的 歧义 。 他 用 选择 关联 度 来 进行 词义 消 卜 ， 算 法 选择 在 谓词 与 其 论 
元 的 上 位 词 之 间 具 有 最 高 选择 关联 度 的 论 元 作为 该 论 元 的 正确 含义 。 


雷 斯 尼克 这 种 选择 关联 度 方法 的 缺陷 是 ， 它 只 能 用 于 谓词 没有 攻 义 
而 仅仅 论 元 有 歧义 的 场合 。 


雷 斯 尼克 的 这 种 选择 关联 度 方法 ， 需 要 有 一 个 高 效 的 句法 剖析 器 
(parser) 来 自动 获取 句法 关系 的 知识 ， 名 法 襄 析 的 错误 往往 会 导致 记 
义 排 歧 的 错误 。 而 目前 句法 剖析 器 的 效果 还 不 理想 ， 因 而 也 就 使 得 这 种 
方法 的 效率 不 高 


此 外 ， 我 们 还 可 以 使 用 语义 层级 关系 ， 放 松 对 于 语义 选择 的 限制 来 
解决 比喻 和 借 喻 的 问题 。 例 如 ， 在 句子 


The company agreed the proposal. 


中 ， 如 果 agree 要 求 主语 的 语义 类 型 为 “human”， 而 company 的 语义 类 型 
为 “social object”， 那 么 ， 选 择 限 制 束 要 遭 到 破坏 。 这 时 ， 如 果 我 们 放松 
选择 限制 ， 把 agree 的 主语 的 语义 类 型 由 “human” 扩 大 到 也 包括 “social 
object”， 便 可 以 确认 这 是 一 个 合格 的 句子 。 


3. 目 立 的 词义 排 旷 方法 


前 面 的 方法 都 要 制定 “规则 ”， 是 所 谓 “ 规 则 对 规则 ” (rule-to-rule 
approach) 的 方法 ， 另 外 ， 还 有 自立 的 方法 (stand-alone approach) ° H 
立 的 方法 不 需要 制定 规则 ， 是 一 种 鲁 棒 (robust) 的 词义 排 收 方法 。 


这 种 鲁 棒 的 目 立 的 词义 排 玻 方法 主要 依靠 词类 标注 来 工作 ， 力 求 把 
对 于 信息 的 要 求 减低 到 最 低 限 度 ， 从 而 作 到 “自立 ”(stand-alone) ， 也 
谍 古 让 机 器 目 己 学 习 而 获得 信息 。 


这 种 机 器 学 习 的 方法 ， 要 求 对 系统 进行 训练 ， 使 得 系统 能 够 目 行 进 
行 词义 排 上 收 ， 而 不 必 依 靠 事 先 设 定 的 规则 。 


要 进行 词义 排 卜 的 词 叫 做 目标 词 (target word) , A piel Arik AB 
文本 ， 叫 做 上 下 文 (context) 。 输 入 按 下 面 方式 进行 初始 化 的 处 理 ; 


。 输 入 文本 一 般 应 该 是 经 过 词类 标注 的 ; 

。 上 下 文 可 以 看 成 是 围绕 目标 词 的 长 短 不 一 的 语言 片段 

。 上 下 文中 的 单词 ， 应 该 是 经 过 词法 分 析 的 ， 应 该 把 变形 词 还 原 成 原 
Xi; 

。 文 本 最 好 经 过 局 部 句法 分 析 或 者 依存 关系 分 析 ， 能 够 反映 出 题 元 角 
色 关系 或 者 其 他 语法 关系 。 


经 过 这 样 的 初始 化 处 理 ， 输 入 文本 要 进一步 提炼 为 包含 相关 信息 的 
特征 的 集合 。 主 要 步骤 是 : 


。 选择 相关 的 语言 学 特征 ; 

。 根据 学 习 算 法 的 要 求 对 这 些 特征 进行 形式 化 描述 (或 者 编码 ) 。 大 
多 数 的 学 习 系统 使 用 简单 的 特征 向 量 (feature vector) ， 这 些 特征 
向 量 采 用 数字 或 者 词类 标记 来 编码 。 


用 来 训练 词义 排 歧 系统 的 语言 学 特征 可 以 粗略 地 分 为 两 类 : 


。 搭配 特征 (collocation feature) ; 


e 共 现 特征 (co-occurrence feature) ° 
搭配 特征 对 目标 词 左 右 的 上 下 文 进行 编码 ， 要 求 指 出 特定 的 、 能 反 


映 这 些 单词 的 语法 性 质 的 位 置 特征 。— 典 型 的 特征 是 单词 、 词 根 形式 、 词 
类 等 。 这 样 的 特征 往往 能 把 目标 词 特定 的 含义 孤立 起 来 以 便 处 理 。 


例如 ， 


An electric guitar and bass player stand off to one side, not really part of 


the scene, just as a sort of nod to gringo expectations perhaps. ( 电 吉 他 和 低 
音乐 器 演奏 者 站 在 一 旁 ， 他 并 不 是 站 在 舞台 的 一 部 分 ， 大 概 只 是 为 了 等 
待 外 国 佬 的 到 来 。) 


我 们 取 特 征 词 bass URERA) 的 左右 两 个 词 以 及 它们 的 词类 标记 
为 特征 向 量 ， 作 为 搭配 特征 表示 如 下 : 


| guitar, NN1, and, CJC, player, NN1, stand, VVB | 


这 样 的 搭配 特征 对 于 相 邻 单词 的 位 置 有 严格 的 要 求 ， 实 现 起 来 比较 
困难 ， 因 此 往往 要 与 共 现 特征 结合 起 来 使 用 。 


共 现 特征 不 考虑 相 邻 单词 的 精确 的 位 置信 息 ， 单 词 本 身 束 可 以 作为 
特征 。 等 征 的 值 就 是 单词 在 围绕 目标 词 的 环境 中 出 现 的 次 数 。 目 标 词 的 
环境 一 般 定义 为 以 目标 词 为 中 心 的 一 个 固定 窗口 ， 要 计算 出 在 这 个 窗口 
中 实 词 的 出 现 频 度 ， 根 据 共 现 词 的 出 现 频 度 ， 判 定 目标 词 的 含义 。 


例如 ， 对 于 目标 词 bass， 我 们 从 语料库 中 选 选 出 它 的 12 个 共 现 词 。 
然后 标 出 它们 在 特定 窗口 中 的 出 现 频 度 。 


这 12 个 共 现 词 是 : fishing, big, sound, player, fly, rod, pound, double, 
runs, playing, guitar, band. 


在 上 面 句 子 中 选取 反映 搭配 特征 的 guitar and bass player stand 作为 
窗口 ， 在 这 个 窗口 中 ， 这 12 个 共 现 词 出 现 的 特征 向 量 为 (player 和 guitar 
的 出 现 次 数 为 1， 其 他 共 现 词 的 出 现 次 数 都 为 0) : 


LO, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0] 


根据 这 样 的 特征 回 量 ， 由 于 第 四 个 共 现 词 player 和 第 十 一 个 共 现 词 
guitar 在 特征 向 量 中 的 值 都 是 1， 因 此 可 以 确定 这 个 bass 的 词义 是 “低音 乐 
吉 ”。 在 这 12 个 共 现 词 中 ， 反 映 bass 的 不 同 特征 是 混在 一 起 的 ， 因 此 ， 我 
们 有 必要 根据 语 料 统计 的 结果 ， 来 给 这 些 特征 向 量 赋值 ， 根 据 赋值 进行 
判断 。 


Hpo (P. Hanks) 指出 ， 多 义 词 bank 的 共 现 词 可 以 分 为 如 下 两 组 
(A 组 和 B 组 ) : 


A 组 : money, notes, loan, account, investment, clerk, official, 
robbery, vault, working, in a, First national, of England. 


BH: river, swim, lake, boat, east, west, south, on top of. 


如 果 bank 的 共 现 词 属于 A 组 ， 则 它 的 涵义 古 “ 银 行 "， 如 果 bank 的 共 
现 词 属于 B 组 ， 则 它 的 涵义 是 “河岸 ”。 


在 鲁 棒 的 词义 排 歧 系 统 中 ， 一 般 都 把 共 现 特征 与 搭配 特征 结合 起 来 
使 用 ， 根 据 反映 共 现 特征 的 共 现 词 在 反映 搭配 特征 的 窗口 中 出 现 的 频 度 
ETE o 


4. 基于 机 硕 学 习 的 词义 排 收 方法 


机 器 学 习 (machine leaning) 方法 可 以 分 为 有 指导 的 学 习 方 法 
(supervised learning approach) 、 半 指导 的 学 习 方法 (semi-supervised 
learning approach ) 和 无 指导 的 学 习 方 法 (unsupervised learning 
approach) ， 下 面 分 别 介 绍 。 


e 有 指导 的 学 习 方 法 


这 种 方法 依据 词义 标注 的 数据 来 训练 分 类 如 ， 并 获取 相关 参数 ， 进 
而 对 测试 语 料 中 的 词语 进行 排 上 收 。 


目前 在 有 指导 的 学 习 方 法 排 上 疏 中 ， 主 要 的 方法 有 朴素 Bayes 分 类 法 
(naive Bayes classifier ， 简 称 NB) 和 决策 表 分 类 法 (decision list 
classifiers) 两 种 。 


使 用 朴素 Bayes 分 类 法 时 ， 不 是 去 寻找 某 个 特定 的 特征 ， 而 是 在 综 
合 考虑 多 个 特征 的 基础 上 进行 词义 排 歧 。 这 种 方法 实际 上 有 是 在 给 定 的 上 
下 文 环境 下 ， 计 算 一 个 多 义 词 的 各 个 义 项 中 概率 最 大 的 义 项 。 计 算 公式 
AT P: 


s = argmaxP(s| V) 
$es 
其 中 ，S 是 词义 的 集合 ，s 表 示 S 中 的 每 一 个 可 能 的 义 项 ，V 表 示 输 入 
上 下 文中 的 向 量 (Vector) 。 


根据 Bayes 公 式 把 上 面 的 公式 改写 ， 我 们 可 以 得 到 直接 根据 向 量 的 
计算 公式 : 


n 
s = argmaxP(s ) [I pl AES 
ses - 
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例如 ， 在 句子 An electric guitar and bass player stand off to one side, 


not really part of the scene, just as a sort of nod to gringo expectations 
perhaps (“ 电 吉 他 和 低音 乐器 Se TE SF, I ERB — 
aay, KB RA TSE EMER”) 中， 我 们 需要 计算 在 bass 左 边 
guitar 的 出 现 概率 和 bass 右 边 的 player 的 出 现 概率 ， 从 而 得 出 bass 的 合 义 
为 “低音 乐句 ”， 达 到 排 政 的 目的 。 


19924E£, 788) (Gale) 等 使 用 这 个 方法 试验 了 6 个 英语 的 多 义 词 
(duty, drug, land, language, position, sentence) 的 词义 排 上 层 ， 正 确 率 达到 
90% 左 右 。 


决策 表 分 类 法 根据 共 现 词 的 等 价 类 的 不 同 制定 决策 表 ， 然 后 利用 这 
个 决策 表 于 输入 向 量 ， 确 定 最 佳 的 词义 。 


例如 ， 雅 罗 夫 斯 基 (Yarowsky) 在 1996 年 制定 如 下 的 决策 表 来 确定 
bass 的 词义 : 


A W in] x 


窗口 中 出 现 fish — bass 1 
窗口 中 出 现 striped bass =$ bass1 
窗口 中 出 现 guitar 一 bass2 
窗口 中 出 现 bass player — bass2 
窗口 中 出 现 piano — bass2 
窗口 中 出 现 tenor 一 bass2 
窗口 中 出 现 sea bass 一 bassl 
窗口 中 出 现 play/V bass — bass2 
窗口 中 出 现 river > bassl 
窗口 中 出 现 violin — bass2 
窗口 中 出 现 salmon 一 bass1 
窗口 中 出 现 on bass -> bass2 


窗口 中 出 现 bass are =" bassl 


其 中 ，bass1 表 示 fish 的 含义 ，bass2 表 示 music 的 含义 。 如 果 检 测 成 
功 ， 就 选择 相应 的 词义 ， 如 果 检 测 失 败 ， 那 就 进入 下 一 个 检测 。 这 样 一 
直 检 测 到 决策 表 的 末尾 ， 其 缺 省 值 就 是 最 大 可 能 的 词义 。 


这 个 决策 表 可 用 于 从 bass 的 music 含 义 中 消除 fish 的 含义 。 第 一 项 检 
测 说 明 ， 如 有 果 在 输入 中 出 现 fish， 那 么 ， 就 选择 bass1 为 正确 的 答案 。 如 
宁 不 是 这 样 ， 那 么 ， 怠 检测 下 一 项 一 直到 返回 值 为 True， 在 决策 表 末 尾 
的 缺 省 值 的 检测 ， 其 返回 值 为 True。 


决策 表 中 项 目的 排列 可 以 根据 训练 语 料 的 特征 来 决定 。 


1994 年 ， 雅 罗 夫 斯 基 提 出 一 种 方法 来 计算 决策 表 中 的 每 个 特征 值 偶 
对 的 对 数 似 然 比 值 (log-likelihood ratio) ， 根 据 计 算 所 得 的 比值 调整 酒 


义 Sense1 和 涵义 Sense2 在 决策 表 的 顺序 ， 从 而 确定 整个 决策 表 中 特征 值 
的 排列 顺序 。 计 算 公 式 如 下 : 

V, ) | 

i 


abs( Log| FC Sense, | f 
P Sense, | f, = 


其 中 ,vy 表示 Sense 的 特征 癌 量 ，f 表 示 该 Sense 的 绝对 频 度 。 


根据 这 个 公式 来 比较 各 特征 值 偶 对 ， 便 可 以 获得 一 个 排列 最 佳 的 决 
策 表 。1996 年 ， 雅 罗 夫 斯 基 采 用 这 样 的 方法 进行 词义 排 长 ， 得 到 了 95% 
的 正确 率 。 


LEA AS ECT RL (MaxEnt) 的 排 歧 方法 、 基 于 支持 向 量 机 
(support vector machine， 简 称 SVM) 的 排 玻 方法 ， 兹 不 警 述 。 


e 半 指 导 的 学 习 方法 


有 指导 的 学 习 方法 的 问题 是 需要 训练 大 量 的 标注 语 料 。 郊 思 特 (M. 
A. Hearst) 和 雅 罗 夫 斯 基 分 别 在 1991 年 和 1995 年 提出 “ 自 举 的 方 
ik" (Bootstrapping Approaches) ， 这 种 方法 又 可 以 翻译 为 “自力 更 生 的 
方法 ”。 这 种 方法 不 需要 训练 大 量 的 语 料 ， 而 只 需要 依靠 数量 相对 少 的 
实例 ， 每 一 个 词 目的 每 一 个 义 项 都 依靠 少量 的 标记 好 的 实例 来 判别 。 


以 这 些 实例 作为 种 子 (seed) ， 采 用 有 指导 的 学 习 方 法 来 训练 语 料 
从 而 得 到 初始 的 分 类 。 然 后 ， 利 用 这 些 初 始 的 分 类 ， 从 未 训练 的 语 料 中 
抽取 出 大 量 的 训练 语 料 ， 反 复 进 行 这 个 过 程 一 直到 得 到 较 满 意 的 精确 度 
MAKNE ° 


这 个 方法 的 关键 是 从 较 小 的 种 子 集合 出 发 ， 创 造 出 大 量 的 训练 语 
料 。 然 后 在 利用 这 些 得 出 的 大 量 的 训练 语 料 来 创造 出 新 的 、 更 加 精确 的 
分 类 。 每 重复 一 次 这 样 的 过 程 ， 所 得 到 的 训练 语 料 越 来 越 大 。 而 未 标注 
的 语 料 越 来 越 少 。 所 以 这 是 一 种 半 指 导 的 学 习 方 法 。 


目 举 的 词义 排 上 法 的 初始 种 子 可 以 使 用 不 同 的 方法 来 产生 。 


1991 年 ， 郡 思 特 用 简单 的 手工 标记 方法 从 初始 语 料 中 获得 一 个 小 的 
实例 集合 。 他 的 方法 具有 如 下 3 个 优点 : 


。 种 子 实例 可 靠 ， 保 证 了 机 器 学 习 有 正确 的 立足 把 ; 

分 析 程 序 选 出 的 实例 不 仅 是 正确 的 ， 而 且 可 以 作为 每 个 义 项 的 意义 
原型 。 

训练 简单 可 行 。 


1995 年 ， 雅 罗 夫 斯 基 提 出 “一 个 搭配 一 个 义 项 ” (One Sense per 
Collocation) 的 原则 ， 效 果 良 好 。 他 的 方法 是 为 每 一 个 义 项 选择 一 个 合 
理 的 标示 词 (indicator) 作 为 种 子 。 例 如 ， 选 择 fish 作 为 识别 bass1 这 个 义 
项 的 种 子 标示 词 ， 选 择 play 作 为 识别 bass2 这 个 义 项 的 种 子 标示 词 。 


下 面 是 例子 : 
play—bass2 


We need more good teachers—right now, there are only a half a dozen 
who can play the free bass with ease. (我 们 需要 更 多 好 老师 ， 目 前 我 们 这 
儿 有 五 六 个 能 够 熟练 地 演奏 低音 乐器 的 。) 


An electric guitar and bass play er stand off to one side, not really part of 


the scene, just as a sort of nod to gringo expectation perhaps. (Fb zi €m {K 


音乐 器 演奏 者 站 在 一 旁 ， 他 并 不 是 站 在 舞台 的 一 部 分 ， 大 概 只 是 为 了 等 
待 外 国 佬 的 到 来 。) 


fish—bass1 


The researchers said the worms spend part of their life cycle in such fish 


as Pacific salmon and striped bass and pacific rockfish or snapper. (人 研究 人 
员 说 ， 蠕 虫 生命 中 一 部 分 时 间 生 活 在 太平 洋 大 马 哈 鱼 和 有 斑纹 的 鲈鱼 以 
及 太平 洋 的 岩 鱼 或 者 甲鱼 体内 。) 


Saturday morning I arise at 8:30 and click on“America's best known fish 
erman,” giving advice on catching bass in cold weather from the seat of a bass 
boat in Louisiana. 〈 星 期 六 早晨 我 8:30 起 床 ， 询 问 “ 美 国 最 有 名 的 渔 人 ”， 
怎样 在 大 冷 天 从 Louisianna 的 钙 鱼 船 的 坐位 上 捕捉 鲈鱼 。) 


在 图 2.19 中 所 示 的 是 使 用 “fish”* 和 “play” 这 两 个 种 子 标 示 词 ， 在 从 
《华尔街 日 报 》 (The Wall Street Journal ， 简 称 WSJ) 抽出 的 bass 例 句 
库 中 查找 而 得 到 的 部 分 结果 。 


Klucevsek plays Giulietti or Titano piano accordions with the more flexible, more 
difficult free bass rather than the traditional Stradella bass with its preset chords 


designed mainly for accompaniment. 


We need more good teachers -right now, there are only a half a dozen who can play 


the free bass with ease. 


An electric guitar and bass player stand off to one side, not really part of the scene, 


just as a sort of nod to gringo expectations perhaps. 


When the New Jersey Jazz Society, in a fund-raiser for the American Jazz Hall of 
Fame, honors this historic night next Saturday, Harry Goodman, Mr. Goodman’s 
brother and bass player at the original concert, will be in the audience with other 


family members. 


The researchers said the worms spend part of their life cycle in such fish as Pacific 


salmon and striped bass and Pacific rockfish or snapper. 


Associates describe Mr. Whitacre as a quiet, disciplined and assertive manager 


whose favorite form of escape is bass fishing. 


And it all started when fishermen decided the striped bass in Lake Mead were too 


skinny. 


Though still a far cry from the lake's record 52-pound bass of a decade ago, "you 


could fillet these fish again, and that made people very, very happy," Mr. Paulson 


says. 


Saturday morning I arise at 8: 30 and click on " America's best-known fisherman , " 
giving advice on catching bass in cold weather from the seat of a bass boat in 


Louisiana. 


图 2.19 ”利用 play 和 fish 与 bass 的 相关 性 从 WSJ 抽 取 的 bass 例 句 ， 上 半 部 的 句子 中 bass 的 含义 为 “ 低 
音乐 器 *， 下 半 部 句子 中 bass 的 含义 为 “鲈鱼 ”。 


雅 罗 夫 斯 基 选 择 种 子 的 途径 有 两 条 : 一 是 机 器 可 读 词 典 ， 二 十 利 用 
统计 方法 根据 搭配 关系 来 选择 。 他 对 12 个 多 义 词 的 收 义 消解 正确 率 为 
96.5% ° 


显而易见 ， 这 种 自 举 的 方法 是 一 种 半 指 导 的 学 习 方法 (semi- 


supervised Learning Approaches) 。 


e 无 指导 的 学 习 方 法 


无 指导 的 学 习 方 法 (unsupervised learning approaches) 避免 使 用 通 
过 训练 得 出 义 项 标注 (sense tagging) 的 语 料 ， 只 使 用 无 标记 的 语 料 作 
为 输入 ， 这 些 语 料 根据 它们 的 相似 大 进行 类 聚 。 这 样 的 类 聚 可 以 作为 成 
分 的 特征 向 量 的 代表 。 根 据 相 似 度 得 出 的 类 聚 再 经 过 人 工 的 词义 标注 
后 ， 残 可 以 用 来 给 没有 特征 编码 的 实例 进行 分 类 。 显 而 易 见 ， 这 是 一 种 
回 量 聚 类 的 方法 


例如 ， 瑞 语 多 义 词 bank 的 义 项 分 别 为 bank1 和 bank2， 在 没有 经 过 训 
练 的 语 料 中 ， 在 第 一 个 上 下 文中 出 现 了 money， 在 第 二 个 上 下 文中 出 现 
了 loan， 在 第 三 个 上 下 文中 出 现 了 water， 它 们 在 不 同上 下 文中 与 其 他 词 
的 共 现 次 数 也 就 是 它们 的 关联 同 量 ， 如 下 表 所 示 : 


bank ~~ building loan money mortgage river water 
loan 150 20 70 100 50 10 40 
money 600 500 100 400 50 30 70 
water 15 400 40 70 l 400 500 


其 中 ，mortgage 的 含义 是 “抵押 ”。 


从 共 现 次 数 的 分 布 《关联 向 量 ) 可 以 看 出 这 三 个 词 的 相似 度 的 接近 
程度 : water 与 loan 或 者 money 的 相似 度 远 远 小 于 money 与 loan 的 相似 度 。 
也 束 是 说 ，money 和 ]loan 的 关联 同 量 大 于 money 与 water 的 关联 回 量 ， 也 
AT loan5 waterB] EX [n] i& 9 Xt, Rila DA money 5 loan 2S RE 
一 起 ， 这 个 类 聚 是 bankl 的 标示 ，bankl 的 涵义 显然 应 该 是 “银行 >”， JE 
water 单 独 算 为 一 个 类 聚 ， 这 个 类 聚 bank2 的 标示 ，bank2 的 涵义 显然 应 该 


AE Fe” o 


经 常 采用 的 方法 是 凝聚 法 (agglomerative clustering) 。N 个 训练 实 
例 中 的 每 一 个 实例 都 被 指派 给 一 个 类 聚 ， 然 后 用 目 底 向 上 的 方式 陆续 地 
把 两 个 最 相似 的 类 聚 结合 成 一 个 新 的 类 聚 ， 直 到 达到 预期 的 指标 为 止 。 


由 于 无 指导 的 学 习 方 法 不 使 用 人 工 标注 的 数据 ， 它 存在 如 下 的 不 
KE: 


。 在 训练 语 料 中 ， 无 法 知道 什么 是 正确 的 义 项 。 

。 所 得 到 的 类 到 往往 与 训练 实例 的 义 项 在 性 质 上 差别 很 大 ， 各 不 相 
谋 。 

。 类 聚 的 数量 几乎 总 是 与 需要 消解 歧义 的 目标 词 的 义 项 的 数量 不 一 
致 。 


RTW (Schütze) 在 1992 年 和 1998 年 ， 先 后 使 用 无 指导 的 学 习 方 法 来 
进行 多 义 词 的 卜 义 消解 ， 其 结 采 与 有 指导 的 学 习 方 法 和 目 举 的 半 指 导 的 
学 习 方法 很 接近 ， 达 到 了 90% 的 正确 率 。 不 过 ， 这 种 方法 所 试验 的 多 义 
词 的 数量 规模 都 很 小 。 


舒 彻 在 1992 年 还 使 用 同 量 类 聚 的 方法 进行 词义 排 上 收 ， 比 较 了 向 量 类 
案 的 词义 排 玻 与 只 选择 最 常见 义 项 的 歧义 消解 结果 。 从 而 证 明了 向 量 类 
案 的 效果 比 之 于 早期 机 器 翻译 系统 使 用 的 选择 最 常见 注 义 的 方法 的 效 采 


好 得 多 。 


单词 义 项 数目 向 量 类 聚 方法 的 选择 最 常见 涵 义 
正确 率 方法 的 正确 率 
tank/s 8 95 80 
plant/s 13 92 66 
interest/s 3 93 68 
capital/s 2 95 66 
suit/s 2 95 54 
motion/s 2 92 54 
ruling 2 90 60 
vessel/s 7 92 58 
space 10 90 59 
train/s 10 89 76 


5. 基于 词典 的 词义 排 收 方法 


上 述 方法 的 最 大 问题 是 语 料 的 规模 问题 。 许 多 词义 排 歧 试验 的 规模 

只 涉及 2 到 12 个 词 ， 最 大 规模 的 词义 排 歧 试验 也 只 涉及 121 个 名 词 和 70 个 

动词 (Ng, Lee, 1996) 。 因 此 ， 学 者 们 想到 了 使 用 机 器 可 读 词 典 

(machine readable dictionary) ， 采 用 基于 词典 的 词义 排 卜 方法 

(Dictionary-Based Approaches) 。 这 时 ， 机 器 可 读 词 典 可 以 给 词义 排 歧 
提供 义 项 以 及 相应 义 项 的 定义 上 下 文 。 


1986 年 ， 莱 斯 元 (M.Lesk) 首先 使 用 词典 中 的 定义 来 进行 词义 排 
层 。 机 器 可 读 词 典 中 词典 条 目的 定义 实际 上 束 是 一 种 既 存 的 知识 源 ， 当 
判断 两 个 单词 A 和 B 之 间 的 亲 和 程 度 时 ， 可 以 比较 这 两 个 单词 A 和 B 在 机 
器 可 读 词 典 的 定义 中 同时 出 现 的 词语 的 情况 ， 如 果 在 A 和 B 两 个 单词 的 
定义 中 都 出 现 共同 的 词语 ， 便 可 推断 它们 之 间 的 杀 和 程度 较 大 ， 从 而 据 
此 来 进行 优选 。 他 把 多 义 词 的 各 个 义 项 的 定义 进行 比较 ， 选 择 具有 最 大 
mE PCH SOTERA SOM © DIUI, 


在 词组 pine cone (MWER) 中 ，cone 是 多 义 词 ， 我们 把 词典 中 pine 的 
定义 与 cone 的 定义 进行 比较 如 下 : 


pine 


1. kinds of evergreen tree with needle-shaped leaves (一 种 具有 和 针 状 树叶 
的 常 绿 树 ) 
2. waste away through sorrow or illness (KIERRE RA ERE) 


cone 


1. solid body which narrows to a point 〈 圆 锥 体 ) 


2. something of this shape whether solid or hollow 〈 硬 的 东西 或 者 空 的 东 
西 ) 
3. fruit of certain evergreen tree s. ( 某 些 常 绿 树 的 果实 ) 


我 们 选择 cone 3 作为 pine cone 中 多 义 词 cone 的 正确 义 项 ， 因 为 在 cone 
3 的 定义 中 ，evergreen 和 tree 两 个 词 与 pine 1 定义 中 的 词 evergreen 和 tree 相 
重合 。 


茉 斯 克 从 《傲慢 与 偏见 》 (Pride and Prejudice ) 和 AP newswire 的 
文章 中 选取 部 分 语 料 进行 试验 ， 正 确 率 达 50 一 70% © 


叉 如 ， 在 天 语 中 ，pen 是 一 个 多 义 词 ， 可 以 理解 为 “ 笔 *y， 也 可 以 理 
解 为 “动物 的 围栏 >»， 如 有 果 在 一 个 句子 中 既 有 pen， 又 有 sheep， 而 在 机 器 
可 读 词 典 的 pen 的 定义 中 有 “an enclosure in which domestic animals are 
kept”， 在 sheep 的 定义 中 有 “There are many breeds of domestic sheep”， 在 
这 两 个 定义 中 都 存在 共同 出 现 的 单词 domestic， 从 而 可 以 判断 ， 在 这 个 
句子 中 ，pen 的 含义 应 该 是 “动物 的 围栏 >， 而 不 是 “ 笔 >， 从 而 消解 了 履 
X. o 


ZIR (K. Jensen) 和 比 诺 特 (J-L. Binot) 利用 联机 词典 中 的 单词 的 
定义 来 消解 英语 介词 的 功能 收 义 。 


例如 ， 英 语 的 with 这 个 介词 ， 其 功能 可 以 表示 INSTRUMENT (I. 
H) ， 又 可 以 表示 PARTOF (部 分 一 全 体 ) 关系 ， 这 就 出 现 了 功能 上 的 
歧义 (case ambiguity) 。 在 英语 句子 “Iate a fish with a fork" F, fork 

(XF) 的 定义 为 “an instrument for eating food”， 其 中 的 instrument 与 
with 的 功能 INSTRUMENT (LA) 相同 ， 故 可 判断 with 在 这 个 句子 中 的 
功能 应 该 是 INSTRUMENT (LR) ， 故 此 句 的 含义 应 该 为 “我 用 又 子 吃 
fü» o 


在 英语 句子 “IT ate a fish with bones” 中 ，bone 在 机 器 可 读 词 典 中 的 定 
义 是 “a part of animal”， 在 fish 的 定义 中 ， 有 “a kind of animal”， 这 与 with 
的 功能 PART-OF (部 分 一 全 体 ) 关系 相同 ， 故 可 判断 with 在 这 个 句子 中 
的 功能 是 PARTOF (部 分 一 全 体 ) 关系， 这样 ， 这 个 句子 的 含义 应 该 
是 “我 吃 市 骨 的 鱼 ”。 


这 个 方法 的 主要 困难 是 词典 中 的 定义 往往 太 短 ， 不 足以 为 词义 排 歧 
提供 足够 的 上 下 文 材料 。 例 如 ， 在 American Heritage Dictionary 中 ， 
bank (银行 ) 的 定义 里 没有 deposit (存款 ) 这 个 词 ， 在 deposit (存款 ) 
的 定义 中 ， 没 有 bank (4847) 这 个 词 ， 而 这 两 个 词 有 很 密切 的 联系 。 


现在 一 些 词典 中 有 主题 分 类 代码 (subject codes) ， 似 乎 可 以 弥补 
这 方面 的 缺陷 ， 因 为 bank 和 deposit 都 可 以 划 为 EC (Economics) 这 个 主 
题 。1991 年 ， 古 特 里 (Guthrie) 报告 ， 他 使 用 了 《 朗 文 当代 英语 词典 》 
(Longman Dictionary of Contemporary English , (8j KLDOCE,1978) 的 
主题 代码 来 消解 层 义 ， 把 正确 率 由 47% 提 高 到 72% © 


国际 计算 语言 学 会 (Association of Computational Linguistics, fal PX 
ACL) 的 词汇 特别 兴趣 小 组 (the Special Interest Group on the Lexicon of 
the ACL, falPRACL-SIGLEX) 发 起 Senseval 国 际 词义 排 改 比赛， 作为 
ACL 的 一 个 研讨 会 (workshop) 举行 。 第 一 届 在 1998 年 ， 第 二 届 在 2001 
年 ， 第 三 届 在 2004 年 ， 第 四 届 在 2007 年 都 进行 的 Senseval 评 测 。 从 2007 
年 第 四 届 开 始 ，Senseval 改 名 为 SemEval (Semantic Evaluation) 。 除 了 
词义 排 上 疏 之 外 ， 还 包括 语义 关系 分 类 、 转 喻 消解 、 词 语 灯 换 、 文 本 情感 
分 析 、 时 间 关 系 识别 、 网 络 人 名 检索 等 方面 的 评测 。 这 些 评测 和 比赛 ， 
推动 了 词义 排 歧 研究 的 发 展 。 


40 多 年 来 ， 目 然 语言 处 理 各 个 领域 的 研 完 在 词义 排 此 方面 虽然 取得 
了 很 大 的 成 绩 ， 但 是 ， 学 者 们 的 各 种 方法 似乎 都 很 难 判定 巴 希 勒 在 1959 


年 提出 的 在 “the box was in the pen” 中 pen 的 词义 应 该 是 “游戏 的 围栏 >»。 可 
见 ， 词 义 排 歧 确 实 是 非常 困难 的 问题 。 要 真正 解决 词义 排 歧 问题 ， 还 需 
要 我 们 做 出 不 懈 的 努力 。 


过 去 的 成 果 使 我 们 看 到 了 解决 这 个 问题 的 一 线 暗 光 ， 尺 管 这 一 线 暗 
光 还 很 微弱 ， 但 它 毕 竞 是 黎明 前 的 具 光 ， 还 是 很 避 舞 人 心 的 ， 因 为 它 预 
示 了 自然 语言 处 理事 业 光 辉 的 未 来 。 
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Bom ”形态 目 动 处 理 


形态 上 自动 处 理 束 是 利用 计算 机 对 上 自然 语言 的 词 的 形态 
(Morphology) 进行 分 析 ， 判 定 词 的 结构 、 类 别 和 性 质 。 


本 章 主要 讲 形态 目 动 处 理 研 究 的 历史 、 有 限 状 态 转 移 网 络 、 医 着 
型 语言 和 屈折 型 语言 的 形态 分 析 、 汉 语 书 面 文本 的 目 动 切 词 、 文 本 的 
目 动 标注 等 问题 ， 并 介绍 基于 隐 马 尔 可 夫 模 型 、 最 大 灶 模 型 、 节 大 箭 
马尔 可 夫 模 型 的 标注 算法 和 基于 转换 的 标注 算法 。 


BT “有限 状态 转移 网 络 


一 般 地 说 ， 形 态 目 动 处 理 可 以 分 为 四 个 步 桑 : 


步骤 一 : 词 例 还 原 (tokenization) ; 
步骤 二 : 词 目 还 原 (lemmatization) ; 
步骤 三 : 词性 标注 (POS-tagging) ; 


步骤 四 : ie] HERE (POS-Disambiguation) ° 


“ 词 例 ”(token) 是 文本 中 独立 的 词汇 单元 。 所 谓 “ 词 例 还 原 ”， 就 
oss A 分 出 来 。 英 语文 本 中 的 单 
一 般 是 界限 分 明 的 ， 单 词 与 单词 之 间 人 存在 空白 ， 单 词 的 切 分 不 像 汉 


语 书面 文本 那样 困难 。 但 是 ， 下 列 情况 仍 需要 进行 切 分 ， 把 独立 的 “ 词 
例 ” 找 出 来 


@ 缩写 : 


a. 缩写 < 字母 + 圆 点 + 字母 + 圆 点 ” 算 一 个 词 例 : qi 
J|, *U.S.", “ie.”，“U.K.” 都 算 一 个 词 例 。 


o 缩写 “字母 串 + 贺 点” 算 一 个 词 例 : 例 
如 ， “Mr.”, “Mrs.”, “Eds.”, “Prof.”, “Dr.”, “Co.”, “Jan.”, “A.”, “b. 
"都 算 一 个 词 例 。 


e 连续 的 数字 : 例如 ，“*123,456.78” 是 一 个 独立 的 词 
例 。“90.7%” 带 百 分 符号 ， 也 应 该 算 一 个 独立 的 词 例 。 分 数 “3/8” 算 一 
个 独立 的 词 例 。 日 期 <15/04/1939” 也 算 一 个 独立 的 词 例 。 


e 含有 非 字 母 符 号 的 缩写 算 一 个 词 例 : d 
hi, “AT&T”, “Micro$oft” 都 算 一 个 词 例 。 


连 字 符 的 词 串 算 一 个 词 例 : (UL. “three-year-old”, “one- 
third”, 2 02 008 2 ? 


e "E 2S EJUS 2] FEE ERE RI: 例如 , “and soon", “ad 
hoc” 都 算 一 个 词 例 。 


e 带 省 略 符 号 C) 的 符号 串 ， 要 还 原 成 不 同 的 词 例 : 例如， 


一 Let's 还 原 成 let + us 
一 I'm 还 原 成 1 + am 
— (it, that, this, there, what, where}'s 还 原 成 {~} + is 


一 He's 还 原 成 (He+is) 或 者 (He + has) 


英语 句子 的 词 例 还 原 有 一 定 难度 的 ， 因 为 句子 的 边界 不 总 是 用 小 
圆 点 来 标识 ， 有 时 也 可 以 用 如 像 冒 号 这 样 的 标点 符号 来 标识 。 当 以 一 
个 缩写 词 来 结束 句子 的 时 候 ， 还 会 出 现 一 个 附带 的 问题 ， 这 时 ， 缩 写 
词 结尾 处 的 小 圆 点 会 起 双重 的 作用 。 例 如 ， 在 句子 “The group included 
Dr. J. M. Freeman and T. Boone Pickens Jr.” F, “J? RANEA, BE 
可 以 表示 Junior 的 缩写 ( T. Boone Pickens 工 .表示 “小 工 Boone 
Pickens") ， 又 可 以 表示 句 末 的 句号 。 这 个 小 圆 点 产生 了 层 义 。 


英语 句子 的 词 例 还 原 的 一 个 关键 部 分 束 是 小 圆 点 的 排 时 问题。 大 

多 数 英 语句 子 词 例 还 原 的 算法 都 比 确 定性 算法 (deterministic 

algorithm) 要 更 加 复杂 一 些 ， 特 别 是 这 些 算法 都 是 通过 机 器 学 习 

(machine learning) 的 方法 来 训练 ， 而 不 是 用 手工 建立 的 。 在 进行 这 

样 的 训练 时 ， 我 们 首先 要 手工 标注 之 有 人 句子 边界 的 一 个 训练 集 ， 然 后 

使 用 任何 一 种 有 指导 的 机 器 学 习 方 法 (supervised machine learning) 训 
练 一 个 分 类 器 (classifier) 来 判定 并 标注 句子 的 边界 。 


更 加 具体 地 说 ， 在 开始 的 时 候 ， 我 们 可 以 把 输入 文本 还 原 成 彼此 
之 间 有 空 日 分 隔 开 的 词 例 ， 然 后 ， 选 择 包 含 惊叹 号 “! ”、 句号 “.”、 问 
号 “3” 三 个 符号 中 的 任何 一 个 符号 (也 可 能 包含 冒号 <: ”) 的 词 例 作为 
句子 的 结尾 。 在 手工 标注 了 一 个 包含 这 样 的 词 例 的 语料库 之 后 ， 我 们 
就 训 练 一 个 分 类 器 ， 对 于 这 些 词 例 内 的 潜在 句子 边界 字符 ， 进 行 二 元 
判定 ， 判 定 某 个 词 例 是 EOS (end-of-sentence， 句 子 结 尾 ) ， 还 是 not- 
EOS 〈 非 句子 结尾 ) 


词 目 还 原 (lemmatization) 就 是 将 文本 中 的 变形 词 还 原 为 原形 
词 ， 以 便 查 找 机 需 词 典 ， 可 以 采用 有 限 状 态 转移 网 络 来 进行 


o 


词性 标注 (POS-tagging) 就 是 给 文本 中 的 单词 标 上 正确 的 词类 。 


词性 排 歧 (POS-Disambiguation) 束 是 消除 兼 类 词 的 不 同 词类 标 
记 ， 使 每 一 个 单词 只 有 一 个 词类 标记 。 


汉语 书面 文本 中 ， 单 词 与 单词 之 间 没 有 界限 ， 词 例 还 原 的 主要 任 


务 就 是 自动 分 词 (automatic segmentation) 。 
这 些 工作 是 上 自动 句法 分 析 和 目 动 语义 分 析 的 基础 。 


近年 来 ， 学 者 们 开始 研究 大 规模 真实 文本 的 目 动 处 理 ， 目 然 语言 
的 语料库 中 单词 的 目 动词 性 标注 也 成 为 目 动 形 态 分 析 的 重要 内 容 。 


自然 语言 的 自动 形态 分 析 (Automatic Morphological Analysis， 或 
者 叫做 “上 自动 形态 分 析 ”) ， 目 前 主要 采用 有 限 状态 转移 网 络 来 进行 。 
本 节 介 绍 有 限 状 态 转移 网 络 的 基本 原理 和 局 限 性 。 


1. 有 限 状态 转移 网 络 的 基本 原理 


一 个 有 限 状 态 转 移 网 络 (Finite State Transition Network, ， 人 简称 
FSTN) 可 由 Q, V, TI 三 部 分 组 成 ; 


FSTN = (Q, V, T) 


其 中 ， 


Q 表 示 状 态 的 有 限 的 非 空 集合 


Q=t{tqo,ql，.…qdn】} 
do, di. ，.…., qn 表示 不 同 的 状态 ; 
V 表 示 语 言 符 号 的 有 限 的 非 空 集合 
V-ía,85, .584) 


d1,d5, «++» dm 表示 不 同 的 语素 或 标点 符号 ; 


T 表 示 转 移 画 数 ， 它 要 反映 出 当 有 限 状 态 网 络 在 Q 中 的 某 一 状态 q; 
扫描 到 V 中 的 某 个 特定 的 词 或 词缀 ai 时 ， 这 个 有 限 状态 转移 网 络 将 转 
移 到 Q 中 的 什么 状态 。Q 中 的 状态 有 两 个 是 比较 特殊 的 : 一 个 是 初始 状 
仿 ， 记 为 qo ， 一 个 是 终极 状态 ， 记 为 qq 。 显 然 ， doEQ,qdfEQ。 


例如 ， 我 们 可 以 这 样 来 定义 一 个 有 限 状态 转移 网 络 : 


FSTN = (Q, V, T) 
Q= {9.915925 qf} 


其 中 ，do 是 初始 状态 ，df 征 终极 状态 。 


V={ 茶 , 喜 ，! } 


Kp, A, “Se TARR, “1! ”是 标点 符号 。 
工 : 


T(25, qo) = (3) 


T{ 喜 ，qj }={q} 
T{ 蕉 ,qd }= {q1} 
T{! , qo} = {gr}. 


这 个 有 限 状 态 转 移 网 络 可 表示 如 下 : 


图 3.1 有 限 状 态 转移 网 络 


这 样 的 有 限 状态 网 络 可 以 生成 “ 坎 喜 ! >, RERE”, RER 
喜 茶 喜 ! ”.……. 这 样 的 表示 祝贺 的 符号 串 。 

从 初始 状态 qo 到 状态 gi PERERA, MRA PRAN ， 
产生 出 语素 " 喜 *， 从 状态 q? 到 终极 状态 qf ,产生 出 标点 符号 <! ”， 这 
样 ， 便 可 生成 "恭喜 ! “这 个 符号 串 。 在 状态 qy ， 网 络 面临 两 种 选择 ， 
如 果 状 态 qz 转移 到 qt ， 则 产生 出 标点 符号 <! “， 网 络 也 同时 进入 终极 
状态 ， 生 成 结束 ， 生 成 的 符号 是 “恭喜 ! ”， 如 果 状 态 q 转移 到 qi ， 则 
产生 出 语素 “区 "， 这 样 ， 网 络 必须 从 状态 qi 再 转移 到 状态 gy ， 产 生出 
语素 “ 喜 "， 然 后 再 从 状态 qs 转移 到 终极 状态 qr ， 产 生出 标点 符 
Seb, BUTS SCIENS | ”， 如 果 在 状态 q， ， 网 络 不 转移 到 状 
态 qf ， 而 再 次 转移 到 状态 qt ， 则 又 可 以 从 状态 qi 转移 到 状态 qy ， 产 生 


HES” BM Rg 转移 到 终极 状态 qr ， 并 产生 出 标点 符 
Bebo, JEU SEES! ”。 


有 限 状 态 转 移 网 络 除了 进行 符号 串 的 生成 之 外 ， 还 可 以 识别 符号 
串 。 这 时 ， 我 们 从 初始 状态 qo 开始 ， 顺 着 网 络 中 箭头 所 指 的 方向 ， 把 
网 络 中 弧 上 标注 的 语素 或 标点 符号 逐一 与 竺 识别 符号 串 的 语素 或 标点 
符号 相 匹 配 ， 如 采 生 识别 的 符号 串 扫 摘 完 毕 ， 网 络 进 入 终极 状态 ， 那 
AA, IX MES REBATE Be I o HI, MRAP B AM! ”， 
我 们 从 初始 状态 qo 开始， 从 状态 qo 到 状态 qi; , MEIER AS TN S 
捉 的 第 一 个 符号 “ 茶 ” 相 匹配 ， 从 状态 qi 到 gq, ， 弧 上 的 语素 “ 喜 ” 与 符号 
捉 的 第 二 个 人 符号“ 喜 ” 相 匹配 ， 从 状态 q, 到 终极 状态 qt ， 弧 上 的 标点 符 
S"! ”与 符号 串 的 最 后 一 个 符号 “! ” 相 匹配 ， 这 时 ， 符 号 串 “ 茶 
E HAF, MACETAS, A, ASRS! ”可 
被 这 个 有 限 状态 网 络 识别 。 同 理 ， 这 个 有 限 状 态 网 络 还 可 识别 符号 
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由 此 可 见 ， 有 限 状 态 转 移 网 络 既 可 以 生成 语言 中 的 符号 串 ， 又 可 
以 识别 语言 中 的 符号 串 ， 它 兼 具 生 成 与 识别 的 双重 功能 。 


我 们 还 可 以 提出 如 图 3.2 中 的 有 限 状 态 转 移 网 络 来 生成 与 识别 如 
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图 3.2” 非 确定 的 有 限 状 态 转移 网 络 


这 个 有 限 状 态 转 移 网 络 的 转移 函数 T 为 : 


T{ 茶 ，qo} = {q} 
TUE, qi) = (99) 
TUE, qi} = (9) 
T{! , qo} ={a¢} 


如 果 把 图 3.2 中 的 有 限 状 态 转 移 网 络 与 图 3.1 中 的 有 限 状 态 转移 网 络 
相 比 较 ， 我 们 不 难看 出 ， 它 们 的 状态 集合 Q 和 语言 符号 集合 V 都 是 完全 
相同 的 ， 只 有 转移 函数 T 不 完全 相同 。 在 图 3.2 中 的 状态 q; 时 ， 为 了 生 
成 或 识别 语素 “ 喜 ”， 存 在 着 两 种 转移 的 可 能 性 : 一 种 可 能 性 是 从 状态 
qu 转移 到 状态 q, ， 另 一 种 可 能 性 是 从 状态 q; 转移 到 状态 qu ; 而 在 图 
3.1 中 ， 为 了 生成 或 识别 同样 的 语言 符号 (语素 或 标点 符号 ) ， 从 一 个 
状态 转移 到 另 一 个 状态 只 有 一 种 确定 的 可 能 性 。 我 们 把 图 3.1 中 的 有 限 
状态 转移 网 络 叫 做 “确定 性 有 限 状 态 转 移 网 络 ” (deterministic 
FSTN) ， 把 图 3.2 中 的 有 限 状态 转移 网 络 叫 做 “ 非 确定 性 有 限 状态 转移 
网 络 ” (non-deterministic FSTN) 。 


在 有 限 状 态 转 移 网 络 中 ， 还 可 以 允许 出 现 “ 空 狐 ”( 记 为 #) ， 也 就 
苹 没 有 标记 任何 语言 符号 的 弧 。 当 从 一 个 状态 转移 到 为 一 个 状态 的 过 


程 中 中 到 这 样 的 空 浙 时 ， 网 络 将 跳 过 这 样 的 空 匆 ， 而 不 生成 或 识别 任 
何 的 语言 人 符号。 空 弧 古 造成 非 确定 性 有 限 状 态 转 移 网 络 的 一 个 重要 因 
素 ， 因 为 当 网 络 在 某 一 个 状态 之 后 直到 空 弧 时 ， 它 可 以 跳 过 空 弧 而 转 
移 到 另 一 个 状态 ， 不 一 定 非 得 转移 到 它 原 来 预定 要 转移 到 的 那个 状 
态 ， 所 以 ， 市 有 择 弧 的 有 限 状 态 转 移 网 络 必定 是 非 确定 性 的 。 


图 3.3 给 出 了 一 个 生成 或 识别 “恭喜 ! ^, RERE! ^, BS 
RE”, “恭喜 恭喜 .… 0E! ”等 符号 串 的 带 空 弧 的 有 限 状态 转移 网 
络 。 


+ 
图 3.3” 带 空 弧 的 有 限 状 态 转 移 网 络 


这 个 有 限 状 态 转 移 网 络 的 转移 函数 T 为 : 


T{AS, qo) = {q} 
TUE, qi) = {q> } 
T{#, Gy } = {qo} 
Tt! , Go} 710: 


图 3.3 中 的 有 限 状 态 转 移 网 络 图 与 图 3.1、 图 3.2 中 的 有 限 状 态 转 移 
网 络 的 状态 集合 Q 和 语言 符号 集合 V 都 是 完全 相同 的 ， 只 有 转移 函数 T 
不 完全 相同 ， 在 图 3.3 中 的 状态 q; 时， 网 络 不 一 定 立 即 转移 到 最 后 状态 
qf ， 而 可 以 通过 空 弧 (#) 跳 到 初始 状态 qo 。 


在 有 限 状态 转移 网 络 中 ， 语 言 符号 不 仅仅 只 是 使 用 单个 的 符号 ， 
也 可 以 使 用 由 若干 个 字符 组 成 的 复合 符号 。 例 如 ， 我 们 可 以 把 两 个 符 
号 “要 "和 “ 喜 * 结 合 起 来 组 成 复合 符号 “ 榴 喜 ”( 这 时 ，“ 蔡 喜 " 是 一 个 
词 ) ， 并 把 它 标记 在 弧 上 ， 如 图 3.4 所 示 : 
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图 3.4” 弧 上 标 有 复合 符号 的 有 限 状 态 转 移 网 络 


图 3.4 中 的 有 限 状态 转移 网 络 只 有 两 个 状态 ， 初始 状态 qo MARK 
态 df ， 语 言 符 号 也 只 有 两 个 ， 单词 “恭喜 ”和 标点 符号 “! ”( 其 中 ， 单 
词 “ 茶 喜 ” 是 由 两 个 汉字 符号 组 成 的 复合 符号 ) ， 其 转移 函数 为 : 


T(E, do } = {qo } 
T{! , qo} 7 {qe} 


从 状态 qo HA, HRB TRAPS ARE” Zia, eal Dk 
回 到 状态 q。， 形 成 一 个 “回路 ”(loop) ， 从 而 可 以 多 次 重复 语言 符 
号 “恭喜 ”。 当 我 们 想 要 多 次 重复 某 个 语言 符号 时 ， 使 用 “回路 ”可 以 大 
大 简化 有 限 状 态 网 络 的 结构 。 


显而易见 ， 图 3.4 中 的 有 限 状 态 转移 网 络 也 具有 前 面 那 些 网 络 的 功 
能 ， 也 可 以 生成 或 识别 “恭喜 ! C, WERE! ”, "AREAS 
喜 ! ”这 样 的 符号 串 。 


C 
图 3.5 ”含有 多 重 弧 的 有 限 状 态 转移 网 络 


如 采 我 们 对 有 限 状 态 转移 网 络 中 的 语言 符号 进行 一 定 程 度 的 概 
括 ， 束 可 以 进一步 简化 有 限 状 态 转 移 网 络 的 结构 。 例 如 ， 对 于 图 3.5 中 
的 含有 多 重 弧 a, b, c 的 有 限 状 态 转 移 网 络 就 可 以 进行 概括 。 


如 果 我 们 把 a, b, c 概 括 为 A， 则 这 个 有 限 状 态 转 移 网 络 中 的 多 重 弧 
a, b, c 可 简化 为 一 条 简单 的 弧 ， 并 标 以 A， 如 图 3.6 所 示 : 


A 


图 3.6 ”简化 了 的 多 重 弧 


图 3.6 中 的 弧 A 代表 了 图 3.5 中 的 多 重 弧 a, bc， 简化 了 有 限 状 态 网 
络 的 结构 。 


如 果 我 们 把 有 限 状态 转移 网 络 中 的 语言 符号 ， 不 用 具体 的 单词 或 
语素 表示 ， 而 用 词类 来 表示 ， 那 么 ， 它 的 生成 或 识别 能 力 就 更 强 了 。 
例如 ， 当 我 们 用 有 限 状态 转移 网 络 来 生成 或 识别 汉语 时 ， 我 们 可 以 采 
FAN (名 词 )、V (HH) ^ EN (方位 词 ) 、ADJ (形容 词 ) + PART 

(Bii) 、NUM (Zi) ^ MEA (量词 ) 作为 语言 符号 ， 再 在 网 络 
中 使 用 一 些 回 路 ， 便 可 以 生成 或 识别 某 些 简单 的 汉语 句子 。 


H 
图 3.7 弧 上 标 有 词类 的 有 限 状态 转移 网 络 


N 可 以 取 如 下 名 词 : 客厅 、 桌 子 、 早 晨 、 墙 、 客 人 、 苹 果 、 旅 
客 、 山 水 画 


V 可 以 取 如 下 动词 : ABs By HEY FE 
FN 可 以 取 如 下 方位 词 : 里 、 上 


PART 可 以 取 如 下 结构 助词 : 着 、 


FH 


NUM 可 以 取 如 下 数 词 : 两 、 三 、 


An 
An 


MEA 可 以 取 如 下 量词 : 位 、 个 、 


ADJ 可 以 取 如 下 形容 词 : £L^ É 


这 个 有 限 状 态 转 移 网 络 可 以 生成 或 识别 如 下 的 汉语 句子 : 


由 客厅 E 坐 X 两 位 客人 
N |. FN V PART NUM MEA N 
其 状态 转移 顺序 是 : 
Go d, d, BO qd 4; 4, 于 

DRF 上 d 着 五 oZ XR 
N FN V PART NUM MEA ADJ N 


其 状态 转移 顺序 是 : 

do Ga Ga Ga? 44> Ase Gg He Ydr 
RR A 3 

N 


ORZ 出 现 了 = 
N V PART NUM MEA ADJ 
其 状态 转移 顺序 是 : 

Go" Ga? d4—* Ga? ds—* ds —* Js >q: 
AE 上 dE 着 山水画 
N FN V PART N 

其 状态 转移 顺序 是 : 
Yo t Q—7*4p g> 4> 0.7 q; 
OER E T = 位 RE 
N V PART NUM MEA N 
其 状态 转移 顺序 是 : 
qo Ga? d4—* d4—* Gg 4> d; 
这 些 句 子 在 汉语 中 都 属于 “ 存 现 句 ”这 一 类 。 这 一 类 句子 的 句 百 用 
表示 处 所 、 时 间 的 词 或 词组 ， 说 明 某 处 、 某 时 存在 、 出 现 或 消失 某 
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存 现 句 的 基本 格式 是 : 

表示 处 所 、 时 间 的 词 或 词组 一 一 表示 存在 、 出 现 或 消失 的 动词 
表示 存在 、 出 现 或 消失 的 名 词 


一 一 助词 


由 此 可 见 ， 使 用 词类 这 样 的 语言 符号 ， 提 高 了 有 限 状态 网 络 摘 述 
目 然 语 言 的 能 力 ， 它 不 仅 可 以 搬 述 某 一 个 句子 的 生成 或 识别 过 程 ， 而 
且 可 以 描述 一 类 人 句子。 


我 们 还 可 以 用 有 限 状态 转移 矩阵 来 表示 有 限 状 态 转 移 网 络 。 甜 阵 
的 横 轴 表示 语言 符号 ， 和 矩阵 的 纵 轴 表 示 该 语言 符号 所 从 出 的 状态 ， 甜 
阵 中 的 状态 表示 该 语言 符号 所 转移 到 的 状态 。 


AN 


1 


4 


do qi 中 中 
di 出 qo 中 
q qi 中 df 
dr 中 中 中 


图 3.8 ”转移 矩阵 


相应 于 图 3.7 中 有 限 状态 转移 网 络 的 状态 转移 矩阵 如 下 : 


在 这 个 状态 转移 矩阵 中 ， 表 示 从 与 之 相应 的 纵 轴 中 的 状态 出 发 ， 
不 能 生成 或 识别 任何 的 语言 符号 。 例 如 ， 和 矩阵 的 第 一 行 说 明 ， 当 从 状 
Sq 到 状态 q; 时 ， 可 以 生成 或 识别 语言 符号 “ 茶 "， 而 从 状态 qo 出 发 ， 
不 可 能 生成 或 识别 语言 符号 * 喜 ” 和 标点 符号 "“! ”， 和 矩阵 的 第 二 行 说 


明 ， 从 状态 qi 出 发 ， 不 可 能 生成 或 识别 语言 符号 * 恭 "和 标点 符 
号 “! ”， 但 从 状态 qi 转移 到 状态 dy 时 ， 可 以 生成 或 识别 语言 符 
号 “ 喜 ”;， 答 阵 的 第 三 行 说 明 ， 从 状态 qs 出 发 ， 不 可 能 生成 或 识别 语言 
符号 “ 喜 ”， 但 从 状态 q; 转移 到 状态 qi 可 以 生成 或 识别 语言 符号 “ 茶 ”， 
从 状态 gq, 转移 到 状态 qt 可 以 生成 或 识别 标点 符号 “! ” 和 矩阵 的 第 四 行 
说 明 ， 从 状态 df 出 发 ， 不 能 生成 或 识别 任何 一 个 语言 符号 和 标点 从 


F, RERE, Sq 是 终极 状态 。 


应 该 指出 ， 这 样 的 状态 转移 矩阵 只 能 表示 确定 性 的 有 限 状 态 转 移 
网 络 ， 不 能 表示 非 确 定性 的 有 限 状 态 转 移 网 络 ， 因 为 在 非 确 定性 的 有 
限 状 态 转移 网 络 中 ， 当 从 某 一 个 状态 出 发 生成 或 识别 某 一 个 语言 符号 
时 ， 可 以 转移 到 的 状态 有 两 个 或 两 个 以 上 ， 这 样 ， 在 状态 转移 矩阵 中 
的 一 个 位 置 上 ， 束 必须 表示 两 个 或 两 个 以 上 的 状态 ， 而 这 古 不 可 能 
HY ° 


例如 ， 在 图 3.2 的 非 确定 性 的 有 限 状 态 转移 网 络 中 ， 从 状态 q; 出 发 
来 生成 或 识别 语言 符号 时 ， 可 以 转移 到 状态 q, ， 也 可 以 转移 到 状态 qu 
， 这 种 情况 在 状态 转移 矩阵 中 是 无 法 加 以 表示 的 。 

当 从 初始 状态 开始 ， 顺 着 有 限 状 态 转移 网 络 中 箭头 所 指 的 方 同 , 
一 个 状态 一 个 地 转移 到 终极 状态 ， 这 个 过 程 叫做 “遍历 ” (traversal) ° 

我 们 可 以 把 明 历 的 过 程 想象 成 一 只 青蛙 从 初始 位 置 开 始 ， 一 个 位 
置 一 个 位 置地 跳 到 终极 位 置 的 过 程 。 如 果 有 限 状 态 转 移 网 络 是 用 于 识 
别 的 ， 那 么 ， 青 蛙 每 跳 一 次 ， 输 入 符号 串 中 的 语言 符号 就 被 抹 掉 一 
^r; 如 果 有 限 状 态 转 移 网 络 是 用 于 生成 的 ， 那么 ， 青 蛙 每 跳 一 次 ， 输 


入 符号 串 中 区 产生 出 一 个 语言 竺 号。 这 样 的 模型 叫做 * 峙 路 模 
型 ”(frog-jumping model) 。 


如 条 用 一 个 有 限 状 态 转 移 网 络 来 进行 识别 ， 那 么 ， 只 有 在 下 述 三 
种 情况 下 ， 青 蛙 才 能 跳 : 


(网络 的 弧 上 所 标记 的 语言 符号 与 输入 符号 串 中 的 下 一 个 语言 符 
号 相同 ; 


输入 符号 串 中 的 下 一 个 符号 属于 网 络 的 弧 上 所 标记 的 词类 ; 
(PET EBERT AES ° 


在 头 两 种 情况 下 ， 青 蛙 可 以 把 输入 指针 问 前 移动 一 个 单词 并 跳 一 
次 ， 在 第 三 种 情况 下 ， 青 蛙 只 跳 一 次 但 无 须 改变 输入 指针 。 


这 个 “ 蛙 跳 模 型 ”形象 地 说 明了 有 限 状态 转移 网 络 的 遍历 过 程 。 


在 对 一 个 有 限 状 态 转 移 网 络 进行 忆 历 的 任何 时 刻 ， 计 算 机 运算 
的 “格局 ”(configuration) 可 以 用 如 下 的 方法 来 刻 划 。 


如 果 是 识别 程序 ， 格 局 包括 R1 和 R2 两 部 分 : 


。R1: 当前 状态 的 名 字 ， 也 束 是 青蛙 所 在 的 位 置 ; 
。R2: 输入 符号 哩 中 尚未 识别 的 部 分 。 


如 果 是 生成 程序 ， 格 局 包括 P1 和 P2 两 部 分 : 


。P1: 状态 的 名 字 ， 也 就 是 青蛙 所 在 的 位 置 ，; 
。P2: 已 经 后 成 的 输出 符号 串 。 


有 限 状 态 转移 网 络 的 遍历 过 程 也 就 是 一 个 搜索 过 程 (search 
process) 。 在 识别 程序 中 ， 搜 索 的 每 一 确定 的 时 刻 的 情况 ， 可 用 格局 
<R1, R2> 表 示 。 例 如 ， 如 果 我 们 用 图 3.2 的 有 限 状态 移 网 络 来 识别 符号 
BS RERS! ”， 当 遍历 到 网 络 的 中 间 状 态 q; 时 ， 当 前 状态 的 名 字 
R1-q,, ， 输 入 符号 串 中 尚未 识别 的 部 分 R2=“ 喜 恭 襄 ! ”， 这 时 的 格局 可 
表示 为 : 


«qi, BRE! > 


A ,输入 符号 串 中 尚未 识别 的 部 分 
Rl ,当前 状态 的 名 字 
当 对 一 个 有 限 状 态 网 络 进行 遍历 时 ， 我 们 必须 随时 注意 当前 格局 
(current configuration) 与 待 选 格局 (alternative configuration) 。 例 
如 ， 对 于 图 3.2 中 的 有 限 状 态 转 移 网 络 ， 在 状态 qi 识别 了 语言 符 
写 “ 喜 之后， 存在 着 两 个 竺 选 格局 : 


«qo, REI > 


«qj, WE! > 


此 时 如 转移 到 状态 qo ， 则 可 继续 识别 “恭喜 ! ". a eA; GUI 
如 转移 到 状态 q, ， 由 于 这 个 状态 后 面 的 弧 上 的 标记 为 “! ”， 无 法 继续 
识别 “恭喜 ! ”， 人 所 历 失败 。 因 此 ， 我 们 可 确定 <qo。 , ASE! > 为 当前 格 
局 ， 而 不 选择 另 一 个 待 选 格局 <qy , EI 


图 3.9 由 前 面 的 图 复制 而 成 


为 了 进行 顺利 的 搜索 ， 可 以 设立 一 个 缓冲 区 ， 把 所 有 的 待 选 格局 
留 在 绥 冲 区 中 ， 而 在 如 历 过程 中 的 每 一 阶段 ， 应 从 这 些 待 选 格局 中 选 
择 一 个 来 作为 当前 格局 。 


图 3.2 中 的 有 限 状态 转移 网 络 壳 历 过 程 格局 的 选择 情况 ， 可 用 下 面 
的 搜索 树 (search tree) 来 表示 : 


<q RE | > <q jE | > 
| 
<q, =! > 
ust <q 1 
| 
Ss 


E310 HRI 


从 这 个 搜索 树 中 可 以 看 出 ， 在 状态 qi ， 识 别 了 语言 符号 “喜之 
Ja, FIRB <q), WE! >Al<q, BE! > 两 个 竺 选 格局 ， 我 们 选择 
«qo. WE! > 为 当前 格局 ， 当 通过 了 状态 qo ， 又 回 到 状态 qi 并 识别 了 
语言 符号 “喜之 后 ， 又 存在 着 <qo ，! > 和 <q, ，! > 两 个 待 选 格局 ， 由 
于 状态 qo 之 后 的 弧 上 的 标记 为 “ 茶 ”"， 不 能 识别 “! ”， 故 选择 <qy ，! > 
为 当前 格局 ， 识 别 了 输入 符号 串 的 最 后 一 个 符号 “! ”之 后 ， 进 入 终极 
KA, HATS BREE ! ”识别 成 功 。 


有 限 目 动机 、 正 则 语法 和 正则 表达 式 之 间 的 关系 如 下 图 所 示 : 


有 限 目 动机 正则 表达 去 


正则 语言 


正则 语法 


图 3.11 有 限 自 动机 、 正 则 语法 和 正则 表达 式 都 可 以 等 价 地 描述 正则 语言 


如 果 我 们 把 有 限 状态 转移 网 络 上 的 标记 由 一 个 单独 的 符号 改 为 符 
写 侦 对 A-a， 这 个 符号 偶 对 A-a 中 的 第 一 个 符号 表示 输入 之子 上 的 符号 
A， 第 二 个 符号 表示 输出 带子 上 的 符号 a， 那 么 ， 束 可 以 把 输入 带子 上 


的 符号 A 转 移 为 输出 市 子 上 的 相应 符号 a， 这 样 一 来 ， 有 限 状态 转移 网 
络 就 变 成 了 有 限 状 态 转录 机 (Finite State Transducers， 人 简称 FST) 


例如 ， 图 3.12 是 一 个 有 限 状态 转录 机 。 


WH BV DET NOUN 2 


图 3.12 ”有 限 状 态 转录 机 


中 ，WH 表 示 符 号 偶 对 where 一 ou, 
BV 表 示 符 号 偶 对 is 一 est, 
DET 表 示人 符 号 侦 对 the — #, 
NOUN 表示 符号 偶 对 exit — la sortie, 
policeman — le gendarme, 
shop — la boutique, 
toilet — la toilette. 
在 上 述 符 号 偶 对 中 的 第 一 个 符号 是 贡 语 词 ， 第 二 个 符号 是 相应 的 
法 语词 ， 有 英语 the 在 法 语 中 没有 对 应 的 词 ， 故 用 # 未 示 。 


当 这 个 有 限 状态 转录 机 识别 英语 词 时 ， 同 时 也 生成 相应 的 法 语 
词 ， 这 样 ， 就 可 以 把 英语 转换 成 相应 的 法 语 ， 实 现 简单 的 词 对 词 机 器 
翻译 。 


我 们 知道 ， 法 语 中 的 冠 词 必须 与 它们 修饰 或 限定 的 名 词 的 性 一 
致 ， 而 英语 中 的 名 词 和 冠 词 则 没有 “性 ”的 变化 。 为 了 解决 这 个 问题 ， 
上 面 的 有 限 状 态 转 录 机 把 与 英语 名 词 相 对 应 的 法 语词 都 加 上 了 其 性 与 


之 一 致 的 冠 词 ， 如 sortie (出 口 ) 前 加 上 了 阴性 冠 词 la, gendarme (7€ 
Fe) 前 加 上 了 阳性 冠 词 le。 这 样 ， 便 解决 了 法 语 冠 词 的 性 与 其 限定 的 
名 词 的 性 的 一 致 问题 。 例 如 ， 当 输入 英语 句子 Where is the exit (H HO 
在 哪里 ) 时 ， 便 可 生成 相应 的 法 语句 子 Ou est la sortie， 当 输入 英语 句 
子 Where is the policeman (宪兵 在 哪里 ) 时 ， 便 可 生成 相应 的 法 语句 子 


Ou est le gendarme ° 


SPR, BAHT DOSE 3.12 FAY ARRAS ALI DA at, FS 
加 一 个 状态 qs 和 两 个 弧 DET-M 和 NOUN-M， 原 来 的 弧 DET 改 为 DET- 


F， 原 来 的 弧 NOUN 改 为 NOUN-F， 使 之 能 区 分 法 语 的 阳性 冠 词 和 阴性 


冠 词 。 


NOUN-M 


WH BV DET-F NOUN-F o 


DET -M 
图 3.13 ”增加 一 个 状态 q4 


其 中 ，DETM 表 示 阳 性 冠 词 ，DETF 表 示 阴 性 冠 词 ，NOUN-M 表 
示 阳 性 名 词 ，NOUN-F 表 示 阴 性 名 词 。 英 语 没 有 阳性 和 阴性 的 区 别 ， 
冠 词 和 名 词 都 不 必 区 别 阳 性 和 阴性 ， 只 是 在 生成 法 语 时 才 区 别 阳 性 和 
阴性 。 


WH 表示 符号 偶 对 where — ou, 
BV 表示 符号 偶 对 is 一 est, 
DET-M 表 示 符 号 偶 对 the — le, 


DET_F 表 示 符 号 偶 对 the — la, 


NOUN-M 表 示 符 号 偶 对 policeman 一 gendarme, 


NOUN-F 表示 符号 偶 对 exit — sortie, 


shop 一 boutique , 


toilet — toilette, 

这 样 ， 当 输入 英语 句子 Where is the exit 时 ， 由 于 与 英语 的 exit 相 应 
的 法 语词 sortie 是 阴性 名 词 ， 仍 然 按 qu -qi >Q >q; 了 qf 的 顺序 ， 生 
成 法 语句 子 Ou est la sortie; 当 输 入 英语 句子 Where is the policeman , 
由 于 与 英语 词 policeman 相 应 的 法 语词 gendarme 是 阳性 名 词 ， 有 限 状 态 
转录 机 从 状态 q, 转移 到 状态 qs ， 生 成 法 语 阳 性 冠 词 le， 再 从 状态 qs 转 
移 到 终极 状态 qt ， 生 成 法 语 阳 性 名 词 gendarme。 但 在 状态 q, 如 果 不 转 
移 到 状态 q4 ， 而 转移 到 状态 qs ， 由 于 英语 的 policeman 在 法 语 中 没有 相 
应 的 阴性 名 词 NOUN-F， 不 能 产生 出 相应 的 法 语词 ， 这 时 ， 只 有 从 状 
Aq 回溯 (backtracking) 到 状态 q, ， 再 经 过 DET-M 弧 转移 到 状态 q4 
， 从 而 生成 与 英语 词 policeman 相 应 的 法 语词 gendarme。 由 此 可 见 ， 这 
个 有 限 状 态 转 隶 机 是 非 确 定性 的 。 这 种 非 确定 性 要 求 转录 机 具有 回 济 
功能 ， 才 能 在 过 历时 得 到 成 功 。 


这 只 是 英 一 法 机 器 翻译 的 一 个 最 为 侧 单 的 实例 ， 实 质 上 只 是 词 对 
词 的 机 右 翻 译 ， 真 正 的 机 器 翻译 系统 要 比 这 复 汪 得 多 。 


2. 有 限 状 态 机 器 的 局 限 性 


有 限 状 态 转移 网 络 和 有 限 状态 转录 机 都 是 有 限 状 态 机 器 (Finite- 
State Machine) ， 这 种 有 限 状 态 机 器 是 一 种 最 简单 的 描述 目 然 语 言 的 
形式 工具 ， 因 而 它 不 可 避免 地 存在 着 局 限 性 。 


从 数学 上 说 ， 有 限 状态 机 器 可 以 描述 n 个 a 相 连 而 构成 的 符号 串 
g sd, 
n^la 
也 可 以 描述 m 个 b 相 连 而 构成 的 从 号 串 
p = b= bh. 
m^ b 
还 可 以 描述 由 n 个 a 和 m 个 b 相 连 而 构成 的 符号 串 
dl Scag p4 þr; 


nra mb 
例如 ， 我 们 可 以 提出 如 下 的 有 限 状态 转移 网 络 来 描述 这 样 的 符号 串 ; 


图 3.14 


我 们 不 难 用 这 个 有 限 状态 转移 网 络 来 生成 符号 串 aaa, bbbbb, 
aaabbbbb, ... 等 等 ， 有 兴趣 的 读者 不 妨 一 试 ， 这 里 残 不 详 述 了 。 


用 这 样 的 有 限 状 态 网 络 来 生成 aaabbbbb 这 样 的 形式 为 ab 的 符号 串 
H 上 时， 符号 a 的 数目 与 符号 b 的 数目 是 不 能 由 网 络 本 里 来 控制 的 。 当 符号 a 
的 数目 n 与 符号 b 的 数目 m 不 相等 时 ， 我 们 无 须 对 n 和 m 加 以 控制 ， 但 
是 ， 如 有 果 我 们 要 求 符 号 a 的 数目 n 与 符号 b 的 数目 m 相 等 ， 也 残 是 如 果 a 
的 数目 是 n,b 的 数目 也 是 n， 有 限 状态 网 络 对 此 就 无 能 为 力 来 控制 7 了。 


美国 语言 学 家 乔 姆 斯 基 从 理论 上 证 明了 ， 下 面 三 种 类 型 的 符号 串 
征 不 能 由 有 限 状 态 转移 网 络 来 生成 的 : 


(1) ab, aabb, aaabbb, ...， 这 种 符号 串 是 由 若干 个 a 后 面 跟着 同样 
数目 的 b 组 成 的 ， 可 以 表示 为 {aab? }， 其 中 , n>1。 


(2) aa, bb, abba, baab, aaaa, bbbb, aabbaa, abbbba，...， 这 种 符号 
串 具 有 镜像 结构 (mirror structure) ， 如 果 用 a 表示 和 集合 {a, b} 上 的 任意 
JES AR SER, He 表示 a 的 镜像 ， 那 么 ， 这 种 镜像 结构 的 符号 串 可 以 
XR (aa)? 


(3) aa, bb, abab, aaaa, bbbb, aabaab, abbabb, ...， 这 种 符号 串 是 由 
若干 个 a 或 者 铬 干 个 b 构 成 的 符号 串 a 后 面 跟着 而 且 仪 只 跟着 完全 相同 的 
符号 串 a 而 组 成 的 ， 如 果 用 a 表示 和 集合 {a, b} 上 的 任意 非 空 符 号 串 ， 那 
么 ， 这 种 符号 串 可 表示 为 {aa}j。 


这 三 种 符号 串 在 目 然 语言 中 都 可 以 找到 相应 的 结构 ， 这 意味 着 ， 
有 限 状 态 机 器 对 目 然 语言 的 描述 能 力 是 不 强 的 。 关 于 这 个 问题 ， 有 兴 
趣 的 读者 请 参看 拙 著 《 数 理 语 言 学 》 轴 第 二 章 ， 此 处 不 再 多 述 。 在 最 
近 出 版 的 《现代 语言 学 名 著 选 读 》 后 的 附录 中 有 乔 姆 斯 基 的 《语言 描 
写 的 三 个 模型 》 的 中 文 译本 ， 此 文 由 张 和 友 博士 翻译 成 中 文 ， 我 做 了 
校对 ， 有 兴趣 的 读者 不 妨 一 读 。 


由 于 存在 着 上 述 的 这 些 局 限 ， 有 限 状 态 机 器 处 理 目 然 语言 句子 的 
效率 很 差 。 因 此 ， 在 上 自然 语言 处 理 系统 中 ， 我 们 更 多 地 使 用 有 限 状 态 
机 器 来 处 理 单词 ， 进 行 形态 分 析 ， 而 不 大 用 于 句法 分 析 。 下 面 我 们 整 
来 说 明 如 何 用 有 限 状 态 机 器 来 进行 形态 分 析 。 


Sp) MaMa sews 
的 目 动词 法 分 析 


传统 语言 学 根据 词 的 形态 结构 把 语言 分 为 三 大 类 : 


(1) 分 析 型 语言 ， 其 特点 是 词 基本 上 没有 专门 表示 语法 意义 的 附 
加 成 分 ， 形 态 变 化 很 少 ， 语 法 关系 靠 词 序 和 虚词 来 表示 。 如 汉语 、 泸 


BA 
语 等 。 


(2) 黏着 型 语言 : 其 特点 是 词 内 有 专门 表示 语法 意义 的 附加 成 
分 ， 一 个 附加 成 分 表达 一 种 语法 意义 ， 一 种 语法 意义 也 基本 上 由 一 个 
附加 成 分 来 表达 ， 词 根 或 词 干 跟 附 加 成 分 的 结合 不 紧密 。 如 分 兰 语 、 


日 语 等 。 


(3) 屈折 型 语言 : 其 特点 是 用 词 的 形态 变化 表示 语法 关系 ， 一 个 
形态 成 分 可 以 表示 才干 种 不 同 的 语法 意义 ， 词 根 或 词 干 跟 附 加 成 分 结 
合 得 很 紧密 ， 往 往 不 易 截 然 分 开 。 


分 析 型 语言 的 形态 变化 很 少 。 例如， 在 书面 汉语 中 ,勉强 称 得 上 
屈折 词尾 的 只 有 一 个 “ 们 ” 字 ， 它 可 以 加 在 有 生命 的 指 人 名 词 的 后 面 表 
示 复 数 ， 如 “学 生 们 ， 老 师 们 ， 先 生 们 ， 女 士 们 *, 但 是 ， 这 些 词 不 
加 “ 们 ”也 有 复数 的 含义 ， 如 可 以 说 “这 些 学 生 ， 这 些 老师 ， 那 些 先 生 ， 
那些 女士 *。 因此 ， 书 面 汉 语 在 形态 变化 方面 的 问题 不 是 很 多 。 


1. 忒 着 型 语言 的 形态 分 析 


对 于 忒 着 型 语言 ， 由 于 其 附加 成 分 很 多 ， 形 态 分 析 束 显得 十 分 重 
要 。 例 如 ， 在 芬兰 语 中 ， 由 有 一 定语 法 意义 的 附加 成 分 接 在 词根 或 词 
干 上 表示 各 种 不 同 的 语法 意义 ， 名 词 有 十 五 个 格 ， 是 世界 上 格 最 多 的 
语言 之 一 ; 动词 有 现在 时 、 过 去 时 的 变化 ， 有 四 种 不 定式 和 两 种 分 
w, 它们 随 格 、 数 、 人 称 的 不 同 而 发 生 屈折 变化 。 如 采 我 们 把 芬兰 语 
具有 屈折 变化 的 词 看 成 是 由 耕 干 个 不 同 的 语素 连接 而 成 的 符号 串 ， 则 
可 用 有 限 状 态 转 移 网 络 对 它们 进行 切 分 ， 在 切 分 过 程 中 ， 把 词 干 的 词 
汇 意义 和 各 种 附加 成 分 表示 的 语法 意义 记录 在 屈折 变化 词 上 ， 从 而 得 
到 关于 这 个 屈折 变化 词 的 词汇 信息 和 语法 信息 ， 达 到 形态 分 析 的 目 


的 。 为 此 ， 我 们 可 以 建立 一 部 机 器 词典 ， 在 机 器 词 典 中 ， 对 于 每 一 个 
语素 标注 出 形式 、 形 态 信息 、 句 法 信息 、 语 义 信息 、 它 可 能 接续 的 其 
他 语素 等 等 ， 在 利用 有 限 状态 转移 网 络 来 切 分 屈折 变化 词 的 过 程 中 ， 
忠 可 以 将 构成 这 个 届 折 变化 词 的 各 个 语素 在 词典 中 记录 的 有 关 信 息 


转移 到 这 个 届 折 变化 词 上 ， 从 而 得 到 关于 这 个 届 折 变化 词 的 各 种 信 
He 


JON 


日 语 也 是 一 种 竺 着 型 语言 。 它 的 词 可 以 分 为 独立 词 和 附属 词 两 大 
类 。 独 立 词 在 句 中 能 单独 使 用 ， 如 名 词 、 代 词 、 数 词 、 动 词 、 形 容 
词 、 形 容 动 词 、 连 体 词 、 副 词 、 连 词 、 改 词 等 ， 附 属 词 在 句 中 不 能 
独 使 用 ， 只 能 附 在 独立 词 之 后 起 一 定 的 语法 作用 ， 如 助词 、 助 动词 
等 。 除 了 叹 词 和 连词 之 外 ， 独 立 词 在 句 中 的 地 位 和 语法 功能 都 由 助词 
与 助动词 表示 ， 因 此 ， 助 词 与 助动词 在 日 语 中 具有 特别 重要 的 作用 。 
动词 、 形 容 词 、 形 容 动 词 有 屈折 变化 ， 其 变化 以 后 面 的 黏着 成 分 为 转 
移 。 如 有 果 我 们 建立 一 部 机 硕 词 典 ， 把 词 干 以 及 各 种 黏着 成 分 所 表示 的 
词汇 、 语 法 、 语 义 信息 标注 在 机 器 词典 上 ， 然 后 用 一 个 有 限 状态 转移 
网 络 来 摘 述 形态 分 析 的 过 程 ， 便 可 实现 对 日 语 的 形态 分 析 。 


例如 ， 我 们 可 以 建立 如 图 3. i 网 络 来 分 析 日 语 短 
语 “* 肥 已 办 《 ROT” (CHT 


GO) 一 人 (小 


E315 ”用 FSTN 分 析 日 语 


我 们 建立 如 下 的 词典 : 


AUi: RMAC MY GGA) 的 连用 形 ， 


4*0: que GEM) 的 连用 形 ， 
kd. 表 租 语 的 动词 去 才 的 终止 形 。 


在 对 图 3.15 中 的 有 限 状 态 转 移 网 络 进行 志 历 时 ， 词 典 中 的 信息 被 
记录 到 “有 已 办 < 存 口 未 村 ”上 ， 可 知 这 个 短语 是 由 形容 词 尺 已 从 中 的 
连用 形 丸 加 < ， 加 上 动词 在 包 的 连用 形态 5， 再 加 上 表 敬 语 的 动词 
Z TREE TRET, RENEZ T” o 


2. 屈折 型 语言 的 形态 分 析 


对 于 屈折 型 语言 ， 由 于 其 用 届 折 词尾 表示 语法 意义 ， 词 可 以 由 词 
根 、 词 缀 和 词尾 构成 ， 词 根 和 词缀 可 以 组 成 词 十， 词根 也 可 以 单独 成 
为 词 于 ， 因 此 ， 我 们 用 如 下 的 有 限 状态 转移 网 络 来 表示 屈折 型 语言 
词 的 形态 分 析 过 程 (图 3.16) 。 


词 干 


前 组 


E316 ”用 FSTN 作 形态 分 析 


在 图 3.16 中 ， 如 有 果 一 个 单词 只 包含 词 干 ， 则 其 过 历 过 程 是 : qo 
^g, ° 如 英语 的 form (形式 ) e 

如 果 一 个 单词 包含 前 级 、 词 干 ， 则 其 忆 历 过 程 是 : qo 9r? 
如 英语 的 reform (改革 ，re- 是 前 级 ，form 是 词 干 ) 。 

如 果 一 个 单词 包含 词根 、 后 级 ， 则 其 遍历 过 程 是 : qo 一 qi qe ° 
如 英语 的 formation (形成 ，form 是 词根 ，-ation 是 后 绥 ) ° 

如 果 一 个 单词 包含 前 绥 、 词 根 、 后 缀 ， 则 其 志 历 过 程 是 : qo qo 
>q, ”~df“。 如 英语 的 reformation (革新 ，re- 是 前 级 ，form 是 词根 ，- 


ation 是 后 级 ) 9 


如 果 一 个 单词 包含 词 干 、 词 尾 ， 则 其 遍历 过 程 是 : qq 一 qf ， 
如 英语 的 forms (form 是 词 干 ，-s 是 词尾 ) ° 


如 果 一 个 单词 包含 前 级 、 词 干 、 词 尾 ， 则 其 遍历 过 程 是 : qo qo 
>q >q; ° 如 英语 的 formations (form 是 词根 ，-ation 是 后 缀 ，-s 是 词 
尾 ) 。 

如 有 条 一 个 单词 包含 前 缀 、 词 根 、 后 绥 、 词 尾 ， 则 其 遍历 过 程 是 : 
qo 一 qo ^d ^d» =~df。 如 英语 的 reformations (re- 是 前 级 ，form 是 词 
根 ，-ation 是 后 级 ，-s 是 词尾 ) e 


由 此 可 见 ， 采 用 有 限 状 态 转移 网 络 ， 可 以 非常 清楚 地 描述 届 折 型 
语言 单词 的 形态 分 析 过 程 。 


应 该 指出 的 是 ， 在 词根 与 后 缀 相连 接 时 ， 有 时 会 发 生 首 变 。 如 刺 
语 的 词根 decide 与 后 级 -ion 连 接 成 decision 有 时，-de- 变 为 -s-, decide 中 的 元 
THE [ai] ， 在 decision 中 变 为 [i] .对 于 这 些 问题 ， 在 用 有 限 状 态 
转移 网 络 来 进行 单词 的 形态 分 析 时 ， 应 该 建立 音 变 规则 来 处 理 。 


下 面 ， 我 们 进一步 举例 说 明 如 何 用 有 限 状态 转移 网 络 来 进行 德 
语 、 法 语 和 英语 等 届 折 型 语言 的 形态 分 析 。 


德语 屈折 变化 丰富 ， 名 词 、 形 容 词 、 冠 词 和 指示 词 有 性 、 数 、 格 
的 变化 ， 动 词 有 变 位 形式 。 


德语 中 存在 着 大 量 的 派生 词 ， 一 个 单词 的 词 干 加 上 前 缀 可 构成 许 
多 新 的 单词 。 最 常见 的 是 由 动词 加 前 缀 构成 新 的 动词 ， 由 名 词 和 形容 
词 加 后 组 构成 新 的 名 词 和 形容 词 。 


由 动词 加 前 级 构成 的 动词 ， 如 由 rufen (HH) 加 前 级 aus- 构 成 
ausrufen (呼喊 ) ，aus- 是 前 级 ，ruf 是 词 干 ，-en 是 词尾 ， 也 可 以 用 
3.16 中 的 有 限 状 态 转 移 网 络 来 进行 词法 分 词 ， 其 遍历 过 程 是 do > do 


>A 了 dr” 


由 名 词 和 形容 词 加 后 级 构成 新 的 名 词 和 形容 词 ， 如 由 和 名词 Kunst 
(艺术 ) 加 后 级 -ler 构 成 的 名 词 Kunstler (ZARA) ， 由 名 词 Stern 
(E) 加 后 级 -artig 构 成 的 形容 词 sternartig ( 星 状 的 ，stem 是 词根 ，- 
artig 是 后 级 ) ， 由 形容 词 neu (新 的 ) 加 后 级 -artig 构 成 的 形容 词 
neuartig (新 型 的 ，neu 是 词根 ，-artig 是 后 级 ) ， 也 可 以 用 图 3.16 中 的 
有 限 状态 转移 网 络 来 进行 形态 分 析 ， 其 遇 历 过 程 是 : qo >q qe 


在 德语 中 还 经 常 使 用 复合 词 ， 这 种 复合 词 由 限定 词 加 上 基本 词 构 
成 ， 基 本 词 位 于 复合 词 的 后 部 ， 复 合 词 的 性 和 数 由 基本 词 决定 ， 基 本 
词 还 决定 复合 词 的 基本 含义 ， 限 定 词 对 基本 词 起 修饰 和 限定 的 作用 。 
例如 ， 在 Intelligenztest (MAMA) 这 个 复合 词 中 ， 基 本 词 是 Test ( 测 
i) ， 限 定 词 是 Intelligenz (4H) ， 它 进一步 限定 了 基本 词 Test 的 确 
切 含义 。 


图 3.16 中 的 有 限 状态 转移 网 络 不 能 分 析 这 样 的 复合 词 ， 我 们 必须 
加 以 改进 ， 使 它 在 分 析 了 复合 词 中 的 限定 词 之 后 ， 还 能 进一步 分 析 复 
合 词 中 的 基本 词 。 为 此 ， 我 们 从 终极 状态 df 出 发 ， 再 加 一 条 指 癌 初始 
状态 qo 的 弧 ， 并 标 以 #， 使 之 从 状态 qe 跳 回 go。 ， 再 进一步 分 析 复合 词 
中 的 基本 词 。 如 图 3.17 所 示 。 


前 级 


图 3.17 ”可 以 分 析 复 合 词 的 FSTN 


例如 ，Weltgeschichtlich (世界 历史 的 ) 这 个 复合 词 ， 由 名 词 Welt 
(THA) 加 形容 词 geschichtlich (历史 的 ) 复合 而 成 。Welt 是 限定 词 中 
的 词 干 (这 个 限定 词 只 有 词 干 ) ，geschicht 是 基本 词 中 的 词根 ，-lich 


苹 基 本 词 中 的 形容 词 后 级 。 这 个 复合 词 可 利用 图 3.17 中 的 有 限 状态 转 
移 网 络 来 进行 形 仿 分 析 ， 其 遍历 过 程 是 : qo dp -qo >d 了 qr ^K 
H, Æq 与 qo 之 间 ， 进 行 了 一 次 返回 初始 状态 的 “跳跃 ”。 


德语 的 许多 复合 词 中 ， 在 组 合成 复合 词 的 各 个 词 之 间 ， 往 往 要 加 
上 -s-, -es-, -en-, -n-, -er- 等 字母 ， 有 的 要 去 掉 修饰 词 的 词尾 -e-。 例 如 ， 
Lebenszeichen (生命 象征 ) F, Leben (ŒM) 与 Zeichen (象征 ) 之 
[RIJH E f-s-; 在 Sinneszelle (感觉 细胞 ) F, Sin R) Zele (W 
胞 ) 之 间 加 上 了 -es-; 在 Nervenzelle (神经 细胞 ) 中 ，Nerv (神经 ) 与 
Zelle (细胞 ) 之 间 加 上 了 -en-; 在 Sonnenstrahl (阳光 ) H, Sonne CK 
EH) 与 Strahl (光线 ) 之 间 加 上 了 -n-; 在 Kinderklinik (JL fr) 
中 ，Kind 《儿童 ) Klinik (诊所 ) 之 间 加 上 了 -er-; 在 Erdgas (天 然 
^) 中 ， 去 掉 了 修饰 词 Erde (地 球 ) 的 词尾 -e. 这 些 问 题 ， 在 形态 分 析 
时 ， 要 建立 相应 的 音 变 规则 来 加 以 处 理 。 


有 了 时， 德语 的 复合 词 可 由 两 个 以 上 的 词组 成 ， 这 只 需 在 转移 到 终 
极 状态 df 之 后 ， 再 往 开始 状态 qo 跳 路 一 次 或 几 次 束 行 了 ， 仍 然 不 难 用 
图 3.17 中 的 有 限 状态 转移 网 络 来 进行 形态 分 析 。 但 是 ， 当 复合 词 由 寿 
干 个 词组 合 而 成 的 时 候 ， 切 分 时 往往 会 出 现 莫 棱 两 可 、 举 棋 不 定 的 情 
况 ， 这 束 需 要 在 各 种 可 能 的 切 分 情况 中 进行 选择 ， 确 定 一 种 正确 的 切 
分 ， 排 除 不 正确 的 切 分 。 


例如 ，Bauerlaubnisse (准许 建筑 ， 这 个 复合 词 ， 在 德语 的 机 器 词 
典 中 ， 存 有 Bauer (das Bauer, PPE, SIE) , Bau (动词 bauen 的 
WF, Æ) , Bauer (der Bauer， 阳 性 名 词 ， 农 民 ) ，Erlaub (动词 
erlauben 的 词 干 ， 准 许 ) , Erlaubnis (die Erlaubnis, ， 阴 性 名 词 ， 准 
IF) , Laub (das Laub， 中 性 名 词 ， 树 时 ) , Nisse (die Nisse， 阴 性 


名 词 ， 和 虱子 卵 ) ，-se 《名词 词尾 ) 等 语素 ， 因 此 ， 可 能 存在 的 切 分 情 
况 有 三 种 : 


@Bau + erlaubnis + se 
@Bauer + laub + nisse 


@ Bau + erlaub + nisse 


为 了 在 这 三 种 可 能 的 切 分 中 选择 出 正确 的 切 分 ， 我 们 可 检查 每 种 
切 分 在 语义 上 的 相 容 性 。 


在 中 ， 其 语义 的 组 合 情 况 是 : 
建筑 + 准许 + 名 词 词尾 
切 分 出 来 的 三 个 部 分 的 语义 是 相 容 的 。 
在 中， 其 语义 的 组 合 情 况 是 : 


Ey Fe SI + LF 


AR ER +P AY + FOB 


切 分 出 来 的 三 个 部 分 在 语义 上 不 相 容 。 


在 人 中， 其 语义 的 组 合 情 况 是 : 


建筑 + 准许 + 翅 子 卵 


切 分 出 来 的 三 个 部 分 在 语义 上 也 不 相 容 。 


所 以 ,我们 选择 语义 上 相 容 的 第 了 种 切 分 ， 排 除 语义 上 不 相 容 的 
第 (2X3) 两 种 切 分 ， 并 确定 这 个 复合 词 的 词义 为 “准许 建筑 ”。 


法 语 是 从 拉丁 语 演变 而 来 的 。 与 拉丁 语 相 比 ， 法 语 的 词 形 屈折 已 
大 大 简化 ， 名 词 没 有 格 的 变化 ， 性 和 数 主要 通过 名 词 前 的 冠 词 、 限 定 
词 来 区 别 ， 动 词 有 变 位 形式 ， 形 容 词 也 有 性 与 数 的 变化 ， 少 数 形式 还 
比较 复杂 ; 法语 的 词 从 结构 上 也 可 以 分 为 前 级、 词 干 、 词 根 、 后 纵 、 
词尾 几 部 分 ， 名 词 、 形 容 词 、 动 词 都 可 以 通过 加 前 组 或 后 绥 来 派生 。 


由 词 干 加 前 级 构成 的 词 ， 如 contrevent (Xf, contre-xé Bil Z& , 
vent 是 词 干 ) , extrafin ( 极 细 的 ，extra- 是 前 级 ，fin 是 词 干 ) ， 可 用 
3.16 中 的 有 限 状 态 转移 网 络 来 分 析 ， 其 遍历 过 程 是 : do > qo qe 


由 词根 加 后 缀 构成 的 词 ， 如 mouvement (运动 ，mouve 是 词根 ，- 
ment 是 后 级 ) , durable (持久 的 ，dur 是 词根 ，-able 是 后 级 ) ， 可 用 图 
3.16 中 的 有 限 状 态 转 移 网 络 来 分 析 ， 其 过 历 过 程 是 : qo oq, 4? 


由 词根 加 前 级 和 后 级 构成 的 词 ， 如 surproduction 〈 生 产 过 剩 ，sur- 
是 前 缀 ，product 是 词根 ，-ion 是 后 缀 ，telespectateur (电视 观众 ，tele- 
是 前 级 ，spectat 是 词根 ，-eur 是 后 级 ) ， 也 可 用 图 3.16 中 的 有 限 状 态 转 
移 网 络 来 分 析 ， 其 遍历 过 程 是 : qo >q >q qe 


在 具体 的 法 语 形态 分 析 中 ， 图 3.16 中 的 有 限 状 态 转 移 网 络 显 得 过 
于 笼统 和 简单 。 


当 名 词 后 缀 是 -ance, -ation, -ade, -ment 时 ， 其 词根 一 般 是 动词 词 
根 。 例 如 ， 和 名词 obeissance (服从 ) 的 词根 是 动词 词根 obeiss-， 和 名词 
creation (创造 ) 的 词根 是 动词 词根 cre-， 名 词 promenade (散步 ) 的 词 
根 是 动词 词根 promen-， 名 词 fabrication (生产 ) 的 词根 是 动词 词根 
fabric- 〈fabriqu- 的 音 变 形式 ) ° 


当 形 容 词 后 级 是 -able, -if 时 ， 其 词根 一 般 也 是 动词 词根 。 例 如 ， 形 
容 词 navigable (可 航行 的 ) 的 词根 是 动词 词根 navig-， 形 容 词 pensif 
(沉思 的 ) 的 词根 是 动词 词根 pens-。 


当 名 词 后 级 是 -ité, -esse 时 ， 其 词根 一 般 是 形容 词 词根 例如， 名 
Wjfidelité (忠实 ) 的 词根 是 形容 词 词根 fidel-， 名 词 souplesse (柔软 ) 
的 词根 是 形容 词 词根 soupl-。 


由 形容 词 词根 构成 名 词 时 ， 有 时 还 会 发 生 音 变 。 例 如 ， 和 名 词 
sottise (H) 由 形容 词 词根 sot- GRAY) 和 后 组 -ise 构 成 ， 而 在 它们 之 
间 ， 要 加 辅音 字母 -- 。 


基于 这 些 情 况 ， 我 们 有 必要 区 分 构成 合成 词 的 词根 是 动词 词 根 还 
征 形 容 词 词根 ， 从 而 更 加 细致 地 措 述 名 词 和 形容 词 的 形态 分 析 过 程 。 


男 外 ， 分 析 的 方 同 也 不 一 定 总 是 从 左 到 右 ， 也 可 以 从 右 到 左 ， 先 
分 析 词 尾 、 后 级， 再 分 析 词 根 ， 最 后 才 分 析 前 缀 。 


为 了 处 理 法 语 中 这 些 复杂 的 语言 现象 ， 我 在 法 一 汉 机 器 翻译 系统 
FCAT 的 研制 中 ， 提 出 了 如 图 3.18 中 的 有 限 状态 转移 网 络 。 


动词 词 干 


动词 后 绥 


-ance, - able, - ation, 
-ade 等 后 绥 


动词 词尾 


-ance, - able; 
-ation, -ade 等 
后 组 

名 词 ， 形 容 词 词 干 


名 词 ， 形 容 词 词尾 


前 组 


-te, -ise, esse 


形容 词 词根 | 形容 词 词根 


-te, -ise, -esse 
等 后 级 


音 变 成 分 
图 3.18 法语 形态 分 析 的 FSTN 


这 样 ， 词 根 为 动词 词根 的 名 词 ， 如 果 没 有 音 变 成 分 ， 则 其 思 历 过 
程 是 qu >q 了 qr ， 例 如， 法 语 的 creation， 先 分 析 后 级 -ation， 后 分 析 
动词 词根 cre-。 如 有 果 有 音 变 成 分 ， 则 其 遇 历 过 程 是 qu >q4 >de >a, ° 
例如 ， 法 语 的 fabrication， 先 分 析 后 级 -ation， 再 把 普 变 成 分 -c- 变 为 - 
qu-， 再 分 析 动 词 词根 fabriqu- ° 

词根 为 形容 词 词根 的 名 词 ， 如 果 没 有 音 变 成 分 ， 则 其 授 历 过 程 是 
qo 了 qs qs， 例如， 法 语 的 souplesse， 先 分 析 后 缀 -esse， 再 分 析 形 容 
词 词根 soupl。 如 果 有 首 变 成 分 ， 通 历 过 程 是 qo >d -qs >a, ^ Fil 
如 ， 法 语 的 sottise， 先 分 析 后 级-ise， 再 分 析 首 变 成 分 -t-， 最 后 分 析 形 
容 词 词根 sot。 

法 语 的 名 词 、 形 容 词 、 动 词 都 有 词尾 屈折 变化 。 如 果 名 词 、 形 容 
词 有 届 折 变化 词尾 ， 则 首先 还 要 分 析 词 尾 ， 再 分 析 后 级 和 词根 。 无 音 
SHT, Hla WB eq > dy qd 了 qf 或 go >q 了 >q4 了 qr ， 有 音 变 


时 ， 其 过 历 过 程 是 qdo >, >q 了 qs ”df 或 do ^q; qdq4 了 qe ^q; ^ AU 
果 动 词 有 屈折 变化 词尾 ， 则 首先 分 析 动 词 词尾 ， 再 分 析 动 词 词 干 ， 其 
3i AE Eg 20 qr" 


如 果 名 词 、 形 容 词 、 动 词 还 有 前 缀 ， 则 还 需 在 终极 状态 qf 分 析 了 
前 级 之 后 ， 再 回 到 这 个 终极 状态 qi .例如 ， 法 语 的 prefabrication (fil 
AD o, Fm wR >q -qe 了 qf 了 qf. 首 先 分 析 后 级-ation， 再 把 
音 变 成 分 -c- 改 变 为 -qu-， 再 分 析 动 词 词根 fabriqu-， 最 后 再 分 析 前 级 


pre- ° 


TER An Tl AE a] AY) a] BJ BS AR, BEB Bh BB 
把 它们 分 为 10 组 (如 图 3.19 所 示 ) ° 


mur ( 墙 ),maison ( 房子 ),riche C 丰富 ) 
candidat ( 候选 人 ) ,noir ( ER EJ ) 

mois ( 月 ) ,gris ( 灰 的 ) 

canal ( 运河 ), général (一般 的 ) 
chetif ( 体 弱 的 ), actif ( 运动 的 ) 

réel ( 真正 的 ) 

chien ( 狗 ) , moyen ( 中 间 的 ) 

chat ( Ai Jn net ( 清楚 的 ) 

eusses | gazeux ( 气体 的 ) 


中 cheveu ( 头发 ) 
图 3.19 ”法 语 名 词 形容 词 词尾 屈折 变化 分 组 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 


一 


图 3.19 中 的 表示 词尾 为 空 ， 即 语言 学 中 的 零 形式 。 


在 本 书 作者 设计 的 法 一 汉 机 器 翻译 系统 FCAT (1983 年 ) 中 ， 法 语 
动词 词尾 按 数 、 时 态 、 语 态 以 及 它 的 不 定式 和 分 词 来 分 组 ， 共 分 为 9 
组 。 


由 于 目 然 语言 处 理 的 文本 多 为 科技 文章 ， 总 是 用 第 三 人 称 ， 
此 ， 在 分 组 时 ， 其 他 人 称 一 般 不 予 考虑 。 由 于 法 语 动词 在 某 些 分 组 中 
的 词尾 经 党 会 有 一 些 共同 的 性 质 ， 所 以 ， 在 分 组 时 ， 还 要 在 有 关 词 尾 
的 右上 角 标 以 A, B, C, D, E, F, G 等 字母 ， 以 示 区 别 。 如 图 3.20 所 示 。 


3 


[4 


现在 时 直 陈 式 单 数 i d 
现在 时 直 陈 式 复数 < isse nent nent 


未 完成 过 去 时 
直 陈 式 单数 
未 完成 过 去 时 
直 陈 式 复数 


现在 时 虚拟 式 单 数 iss ne ne 
现在 时 虚拟 式 复 数 nent nent 
La 
将 来 时 直 陈 式 单数 ire dra 
将 来 时 直 陈 式 复数 : iront dront 
le] La 
现在 时 条 件 式 单数 | erait irait drait rait 

现在 时 条 件 式 复数 | eraient | iraient | draient raient 
[4 |» 


不 定式 


现在 分 词 


过 去 分 词 


图 3.20 ”法 语 动词 词尾 变化 分 组 


例如 ， 法 语 的 动词 passer (通过 ) 的 词 干 pass， 可 取 如 下 词尾 : 


1A passe , passent 一 一 ”现在 时 直 陈 式 


1B passera, passeront —— 将 来 时 直 陈 式 

1C passait, passaient — —— 未 完成 过 去 时 直 陈 式 
1D passer — “ASPET 

1E passant 一 一 现在 分 词 

1F passé —— 过 去 分 词 


动词 savoir (知道 ) 的 屈折 变化 比较 复杂 ， 当 它 的 词 干 是 sav 时 ， 
可 取 如 下 词尾 : 


9A sav, savent — — 现在 时 直 陈 式 
1C savait , savaient 一 一 ”未 完成 过 去 时 
SD savoir => ASE 

当 savoir 的 词 干 是 sach 时 ， 可 取 如 下 词尾 : 
9G sache, sachent 一 一 现在 时 虚拟 式 
1E sachant — 现在 分 词 


我 们 对 名 词 、 形 容 词 和 动词 词尾 屈折 变化 的 分 组 ， 与 传统 语法 有 
一 些 不 同 ， 但 这 样 更 加 便于 计算 机 处 理 。 


用 有 限 状 态 转 移 网 络 来 进行 法 语 形态 分 析 时 ， 还 要 考虑 法 语 单词 
的 各 种 可 能 的 切 分 情况 ， 确 定 正确 的 切 分 ， 排 除 不 正确 的 切 分 。 在 切 
分 的 同时 还 要 查 词典 ， 把 词典 中 记录 的 有 关 信 息 赋值 在 所 切 分 的 部 分 
上 ， 这 样 ， 当 一 个 有 限 状 态 转 移 网 络 裔 历 完 毕 ， 有 关 单 词 的 切 分 也 就 
随 之 完成 ， 网 络 进 入 终极 状态 ， 有 关 单 词 也 台 被 赋予 了 所 切 分 部 分 记 
孙 在 词典 中 的 信息 。 这 些 信息 吏 是 尔后 句法 分 析 和 语义 分 析 的 基础 。 
这 些 信息 越 准确 ， 对 和 尔后 的 句法 分 析 和 语义 分 析 束 越 有 利 。 


英语 十 现代 语言 中 左 具 影响 的 一 种 语言 ， 由 于 在 历史 上 英语 曾 与 
多 种 民族 语言 接触 ， 它 的 词汇 由 “一 元 ” 变 为 “多 元 ”， 语 法 从 “多 届 
折 ” 变 为 “ 少 届 折 ”。 近 代 英 语 的 词 形变 化 仅 限 于 名 词 的 数 ， 代 词 的 性 、 
数 、 格 ， 动 词 的 时 态 ， 形 容 词 没有 性 、 数 、 格 的 变化 。 


英语 的 名 词 、 形 容 词 、 动 词 也 可 由 前 缀 、 词 根 、 后 缀 等 部 分 组 
成 ， 名 词 和 动词 还 有 届 折 词尾 ， 因 此 ， 也 可 以 用 图 3.16 中 的 有 限 状态 
转移 网 络 来 进行 形态 分 析 。 当 然 ， 图 3.16 中 的 有 限 状 态 转 移 网 络 只 是 
一 般 地 说 明了 分 析 的 过 程 。 


在 实际 的 语言 分 析 中 ， 还 必须 编写 词典 和 制定 分 析 规 则 。 下 面 ， 
我 们 以 英语 为 例子 ， 具 体 地 说 明 词 典 和 分 析 规 则 的 编制 方法 。 

如 果 我 们 要 对 英语 的 fly (€) , work (TE) ，arrive (到 达 ) , 
stop (停止 四 个 动词 进行 形态 分 析 ， 首 先 我 们 必须 对 这 四 个 动词 的 


变 位 情况 进行 分 类 。 


这 四 个 英语 动词 的 变 位 情况 如 下 : 


原形 fly work arrive stop 
单数 第 三 人 称 flies works arrives stops 

过 去 时 flew worked arrived stopped 
过 去 分 词 flown worked arrived stopped 
现在 分 词 flying working arriving stopping 


我 们 把 这 四 个 动词 的 变 位 情况 分 为 1，2，3，4 四 个 类 ， 如 图 3.21 
Pras 


图 3.21 ”英语 动词 词尾 变化 分 组 


图 3.21 中 ，@ 表 示 词 尾 为 空 〈 零 形式 ) 。 


我 们 选择 如 下 的 有 限 状态 转移 网 络 来 控制 形态 分 析 过 程 (图 
3.22) s 


词 干 


图 3.22 ”英语 动词 形态 分 析 的 FSTN 


我 们 建立 两 部 词典 ， 一 部 是 词 干 词典 ， 一 部 是 词尾 词典 。 词 典 中 
记录 着 有 关 的 信息 。 


e 词 干 词典 
FL: 1 类 动词 ， 后 可 接 介词 to， 词 形 为 fly。 
WORK: 2 类 动词 ， 后 可 接 介 词 at 或 不 接 介 词 ， 词 形 为 work。 


ARRIV: 3 类 动词 ， 后 可 接 介 词 at， 词 形 为 arrive。 


STOP: 4 类 动词 ， 可 做 及 物 动 词 ， 亦 可 做 不 及 物 动词 ， 词 形 为 


stop ° 


e 词尾 词典 


Y: 1 类 动词 词尾 ， 不 定式 。 
IES: 1 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 


EW: 1 类 动词 词尾 ， 过 去 时 。 


OWN: 1 类 动词 词尾 ， 过 去 分 词 。 
YING: 1 类 动词 词尾 ， 现 在 分 词 


s: 2 类 或 4 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 


ED: 2 类 、3 类 或 4 类 动词 词尾 ， 过 去 时 或 过 去 分 词 。 


E: 3 类 动词 词尾 ， 不 定式 。 
ES: 3 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 


ING: 2 类 、3 类 或 4 类 动词 词尾 ， 现 在 分 词 或 动 名 词 。 


我 们 还 要 根据 有 限 状态 转移 网 络 提出 若干 规则 ， 来 控制 形态 分 析 
的 过 程 。 规 则 要 说 明 执 行 该 规则 的 条 件 、 赋 值 的 情况 和 字符 链 变 化 
(BESS) 的 情况 。 


QD 规则 1: 


一 条 件 : 该 动词 为 4 类 动词 ， 状 态 处 于 qu ， 词 干 后 四 个 字母 为 
PING， 或 词 干 后 三 个 字母 为 PED » 


一 赋值 : 把 词典 1 中 的 信息 赋 到 当前 词 上 ， 状 态 改 变 为 qd 。 
一 链 变 ， 将 词 干 后 的 第 一 个 字母 p 去 掉 。 


@) 规 则 2: 


条件， 该 动词 为 1 类 、2 类 或 3 类 动词 ， 状 态 处 于 qd ， 词 干 后 的 
第 一 个 字母 不 为 空 。 


一 赋值 : 把 词典 中 的 信息 赋 到 当前 词 上 ， 状 态 改 变 为 qd。 


G) 规 则 3: 


一 条 件 ， 该 动词 为 1 类 、2 类 或 3 类 动词 ， 状 态 处 于 qo ， 词 干 后 第 
一 个 字母 为 空 。 


一 赋值 : 把 词典 中 的 信息 赋 到 当前 词 上 ， 状 态 改变 为 dd ， 即 最 后 
状态 


DFJ: 


ZE: DE 2K > 3RR E, RAA, 4p 
干 的 动词 变 位 类 别 与 所 分 析 词尾 的 动词 变 位 类 别 不 矛盾 。 


一 赋值 ， 把 当前 词 中 已 赋 好 值 的 信息 与 词典 2 中 记录 的 有 关 信 息 一 
起 赋 到 所 分 析 的 词 上 ， 并 把 状态 改变 为 dg。 


采用 这 样 的 规则 ， 计 算 机 便 可 进行 动词 词尾 的 切 分 ， 并 把 词典 1 的 
词 干 中 所 记录 的 信息 以 及 词典 2 的 词尾 中 所 记录 的 信息 ， 正 确 地 赋 到 所 
分 析 的 词 上 ， 达 到 目 动 形 态 分 析 的 目的 。 


上 述 在 计算 机 内 进行 的 语言 的 形态 分 析 过 程 ， 是 不 是 与 人 的 大 脑 
中 所 进行 的 形态 分 析 过 程 一 致 呢 ? 它 是 不 是 人 的 大 脑 中 所 进行 的 形态 
分 析 过 程 的 计算 机 模拟 呢 ? 这 是 一 个 十 分 有 趣 而 复杂 的 问题 ， 目 前 我 
们 还 难以 作出 完满 的 回答 。 


3. 形态 分 析 的 心理 学 依据 


不 过 ， 现 代 心 理学 的 一 些 成 果 ， 可 以 为 我 们 进一步 探讨 这 个 饶 有 
趣味 而 复杂 的 问题 提供 线索 。 下 面 我 们 介绍 其 中 的 两 个 重要 的 实验 结 
E. 


e 塔 夫 特 (M. Taft) 通过 实验 发 现 ， 当 被 试 者 来 识别 单词 时 ， 一 
个 由 单一 语 又 构 成 的 词 ， 可 以 直接 识别 ;而 由 不 同 语 又 构成 的 词 ， 识 
别 时 则 需要 先 把 该 词 分 解 为 语素 ， 然 后 才能 识别 ;， 对 市 前 绥 的 词 ， 则 
需要 先进 行 前 缀 的 脱落 ， 然 后 才 搜 索 词 中 的 其 他 语素 ， 如 末 搜 索 成 
功 ， 还 需要 比较 前 级 与 词 中 的 其 他 语素 在 语义 上 是 否 相 容 。 因 此 ， 对 
词 的 识别 是 一 个 多 阶段 的 搜索 过 程 。 这 个 过 程 ， 与 我 们 用 有 限 状 态 转 
移 网 络 所 摘 述 的 过 程 大 同 小 异 。 


e 词 的 识别 不 仅仅 与 该 词 的 发 音 和 词 形 等 感觉 信息 的 输入 有 关 ， 
而 且 还 与 人 的 大 脑 中 所 存储 的 关于 该 单词 的 各 种 知识 有 关 ， 这 些 知 识 
能 对 输入 的 感觉 信息 进行 解释 和 预测 。 因 此 ， 可 以 把 人 脑 中 所 存储 的 


有 关 词 汇 的 知识 比喻 为 一 部 心理 词典 ， 词 的 识别 过 程 也 残 是 在 心理 词 
典 中 进行 查询 和 搜索 的 过 程 ， 如 果 根 据 词 的 发 音 或 词 形 在 心理 词典 中 
找到 了 相应 的 词汇 条 目 并 理解 了 它 的 含义 ， 在 心理 学 中 就 叫做 “词汇 通 
iA” (Lexical Access) ° 20 793% (J. I. Chunbley) 和 巴 洛 塔 (D. A. 
Balota) 通过 心理 学 实验 发 现 ， 单 词 的 识别 可 以 分 为 两 个 阶段 : 第 
一 ， 词 汇通 达 阶 段 一 一 把 词 的 发 音 或 词 形 等 信息 与 心理 词典 中 存储 的 
一 个 个 条 目 相 匹配 ， 从 而 在 心理 词典 中 找到 相应 的 单词 ， 第 二 ， 意 义 
决策 阶段 一 一 要 确定 单词 的 发 首 、 意 义 以 及 其 他 信息 。 只 有 在 词汇 通 
达 之 后 ， 才 有 可 能 进行 意义 的 确定 。 这 个 过 程 ， 与 我 们 借助 于 机 峰 词 
典 和 规则 来 进行 形态 分 析 的 过 程 也 相去 无 儿 。 


BZT ”汉语 书面 文本 的 目 动 切 词 
1. 词 式 书写 的 必要 性 


书面 汉语 不 同 于 英语 、 德 语 、 法 语 等 印 欧 语 言 ， 英 语 、 德 语 、 法 
语 在 书写 时 ， 词 与 词 之 间 用 空格 分 开 ， 因 而 词 与 词 之 间 的 界限 在 书面 
上 是 渭 泾 分 明 的 ; 而 汉语 在 书写 时 ， 词 与 词 之 间 不 留 空 日 ， 一 个 汉语 
句子 殊 是 一 大 串 前 后 相 续 的 汉字 的 字符 串 ， 词 与 词 之 间 的 界限 ， 被 前 
后 相 续 的 汉字 淹没 得 无 影 无 踪 了 。 


其 实 ， 上 古 拉丁 文 也 是 没有 单词 界限 的 ， 阅 读 时 也 存在 切 分 的 问 
题 。2009 年 6 月 ， 我 到 意大利 罗马 访问 ， 发 现在 著名 的 “真理 之 口 * 附 近 
的 革 玛 利 亚 教 符 里 有 一 块 石 碑 ， 在 石碑 上 的 古 拉 丁 文 是 没有 空格 的 ; 
只 是 在 一 些 理解 困难 的 地 方 ， 使 用 小 圆 点 ， 我 问 当 地 人 ， 他 们 估计 可 


能 是 早期 的 “标点 符号 ”， 用 于 分 割 太 长 的 语 段 。 人 例如， 倒数 第 7 行 
ESSE.EIDEMDEI.GENETRICIS 如 果 分 词 应 当 是 “ESSE EI DEM DEI 
GENETRICIS”( 意 思 是 “我 应 给 她 ， 她 是 神 的 妈妈 ”) 中 EIDEMDEI 三 
个 词 之 间 没 有 空格 ， 而 且 DEMDEI 两 个 词 不 但 没有 分 开 ， 而 且 把 M 的 
右边 和 D 的 左面 连 写 在 一 起 了 。 其 他 部 分 的 单词 与 单词 之 间 基 本 上 没 
有 空格 ， 很 难看 出 单词 之 间 的 分 界 。 我 认为 这 是 一 个 基本 上 没有 分 词 
的 拉丁 语文 本 ， 尽 管 有 某 些 地 方 使 用 小 圆 点 分 割 文本 使 之 便于 阅读 。 


RAE | 
AEA CM Dn | 


图 3.23 ”证 拉丁 文 的 文本 中 基本 上 没有 单词 界限 


公元 4 世纪 哥 特 人 武 尔 菲 拉 (wulila) 采用 在 希腊 字母 基础 上 发 展 
的 字母 书写 古代 的 日 耳 曼 语 ， 他 用 西部 哥 特 人 的 哥 特 语 翻译 了 原来 用 
拉丁 语 写 的 《圣经 》。 从 当时 的 文字 版 面 可 见 ， 也 有 类 似 上 面 拉丁 语 
石碑 中 那样 的 小 圆 点 ， 笔 者 估计 也 可 能 是 早期 的 “标点 符号 ”， 但 是 ， 
单词 之 间 没 有 空格 ， 还 没有 实行 “ 词 式 书写 ” 
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”图 3.24 四 世纪 哥 特 人 Woulfila 翻 译 的 哥 特 语 《 圣 经 》 


后 来 ， 欧 洲 人 改革 了 这 种 落后 的 文字 书写 方式 ， 单 词 之 间 用 空格 
分 开 ， 大 大 方便 了 阅读 。 


朝鲜 的 谚 文 (hangul) 是 一 种 音素 化 的 音节 文字 ， 
宗 大 王 主持 创立 ， 创 立 的 时 候 按照 音节 书写 ， 为 了 区 分 同音 音节 ， 


1444 年 由 李 世 
X. 


本 中 仍然 夹杂 不 少 的 汉字 。 过 了 500 年 ， 到 1948 年 取消 夹杂 使 用 汉字 以 
Ja, “ 词 式 书写 ? 才 开 始 实行 ， 词 与 词 之 间 使 用 空格 隔 开 ， 这 给 详 文 的 
书写 和 阅读 市 来 了 很 大 的 方便 。 


在 近代 的 中 国 ， 汉 语 的 书面 文本 也 进行 过 一 些 改革 ， 如 改 横 排 为 
竖 排 、 使 用 新 式 标点 等 等 。 但 是 ， 始 终 没有 采用 空格 来 分 割 单词 的 界 
限 ， 在 信息 时 代 ， 这 种 连续 的 汉字 文本 的 书写 方式 严重 地 阻碍 了 汉语 
书面 文本 的 自动 处 理 。 在 机 器 翻译 、 信 息 检索 中 ， 都 成 为 了 一 个 很 大 
的 困难 问题 。 
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书写 ”的 建议 。 不 过 ， 由 于 长 期 的 书写 和 阅读 的 习惯 ， 人 们 对 于 这 
种 “ 词 式 书写 ”仍然 不 欢迎 。 目 前 ， 通 过 书面 文本 本 身 的 改进 (实行 词 
ABE) 的 条 件 还 不 成 熟 。 为 了 促进 中 文 信息 处理 的 发 展 ， 我 们 只 得 
通过 技术 来 解决 这 个 问题 ， 我 认为 ， 这 是 一 种 可 行 的 权宜 之 计 ， 是 为 
了 适应 大 家 的 书写 和 阅读 习惯 的 一 种 不 得 已 的 办 法 。 


汉语 的 形态 不 丰富 ， 书 面 汉语 的 单词 基本 上 没有 形态 变化 ， 在 汉 
语 的 目 然 语言 处 理 中 ， 书 面 汉语 形态 分 析 的 主要 任务 不 是 分 析 单 词 的 
形态 变化 ， 而 古 进行 单词 的 目 动 切 分 ， 使 被 前 后 相 续 的 汉字 淹没 得 无 
影 无 踩 的 词 与 词 之 间 的 界限 暴露 出 来 。 词 是 语言 中 最 小 的 能 独立 运用 
的 单位 ， 利 用 计算 机 把 汉语 的 一 个 句子 、 一 篇 文章 、 一 部 著作 中 的 单 
词 ， 逐 一 地 切 分 出 来 ， 才 有 可 能 对 汉语 进行 进一步 的 分 析 。 因 此 ， 书 
面 汉 语 的 目 动 切 词 ， 是 汉 外 机 需 翻 译 、 书 面 汉语 文献 目 动 标 引 、 书 面 
汉语 的 目 动 检索 、 书 面 汉 语 的 搜索 引擎 、 书 面 汉语 目 然 语言 理解 等 研 
完工 作 的 基础 和 前 提 。 


在 汉语 的 目 然 语 言 处 理 中 ， 几 是 涉及 句法、 语义 的 研究 项 目 ， 痢 
要 以 词 为 基本 单位 来 进行 。 句 法 研究 组 词 成 句 的 规律 ， 没 有 词 束 无 所 
谓 组 词 成 名 ， 因 而 也 融 无 所 谓 句法 。 语 义 是 语言 中 的 概念 与 概念 之 间 
的 关系 ， 而 词 是 表达 概念 的 ， 没 有 词 也 区 无 所 谓语 义 人 研究。 因此 ， 词 
征 汉 语 语法 和 语义 研究 的 中 心 问题 ， 也 是 汉语 目 然 语言 处 理 的 关键 问 
题 。 另 外 ， 词 的 问题 也 关系 到 智能 化 计算 机 的 研制 。 智 能 化 计算 机 具 
有 联想 、 判 断 、 推 理 的 功能 ， 而 联想 、 判 新 和 推理 都 是 要 以 词 为 基本 
单位 的 句子 来 表达 的 ， 不 研究 词 的 问题 ， 智 能 化 计算 机 的 人 研究 束 会 成 


书面 汉语 的 词 是 由 汉字 构成 的 。 汉 字 的 构 词 极为 灵活 ， 计 算 机 在 
对 一 串 连 续 的 汉字 字符 进行 切 词 时 ， 可 能 会 有 多 种 切 词 方 式 ， 稼 常 使 
计算 机 举 棋 不 定 ， 误 入 迷津 ， 造 成 切 词 的 失败 ， 或 者 得 出 错误 的 切 分 
结果 。 因 此 ， 我 们 必须 重视 计算 机 目 动 切 词 方法 的 研究 。 


2. 汉语 书面 文本 目 动 切 词 的 主要 方法 


目前 汉语 书面 文本 目 动 切 词 方法 主要 有 以 下 几 种 : 


e 最 大 匹配 法 (Maximum Matching Method， 简 称 MM 法 ) : 在 计 
算 机 中 存放 一 个 已 知 的 词 表 ， 这 个 词 表 叫 做 底 表 ， 从 被 切 分 的 语 料 
中 ， 按 给 定 的 方向 顺序 截取 一 个 定 长 的 字符 串 ， 通 常 为 6 至 8 个 汉字 ， 
这 个 字符 串 的 长 度 ， 叫 做 最 大 词 长 。 把 这 个 具有 最 大 词 长 的 字符 串 与 
压 表 中 的 词 相 匹配 ， 阁 匹配 成 功 ， 则 可 确定 这 个 字符 串 为 词 ， 计 算 机 
程序 的 指针 同 后 移动 与 给 定 最 大 词 长 相应 个 数 的 汉字 ， 继 续 进 行 匹 


Ac; 否则 ， 则 把 该 子 符 串 逐次 减 一 ， 表 与 改 表 中 的 词 进行 匹配 ， 直 到 
成 功 为 止 。 


MM 法 的 原理 稍 单 ， 易 于 在 计算 机 上 实现 ， 时 间 复 杂 度 也 比较 
低 。 但 是 ， 最 大 词 长 的 长 度 比较 难于 确定 ， 如 有 宁 定 得 太 长 ， 则 匹配 时 
化 费 的 时 间 就 多 ， 算 法 的 时 间 复 洒 度 明显 提高 ， 如 琳 定 得 太 短 ， 则 不 
能 切 分 长 度 超过 它 的 词 ， 导 致 切 分 正确 率 的 降低 。 


e 逆 癌 最 大 匹配 法 (Reverse Maximum Matching Method, fA R 
RMM 法 ) : 这 种 方法 的 基本 原理 与 MM 法 相同 ， 不 同 的 是 切 词 时 的 扫 
措 方 向 。 如 条 MM 法 的 扫描 方 问 是 从 左 到 右 取 字 符 串 进行 匹配 ， 则 
RMM 法 的 扫描 方向 瓯 是 从 右 到 左 取 字 符 串 进行 匹配 。 实 验 表 明 ， 
RMM 法 的 切 词 正 确 率 比 MM 法 更 高 一 些 。 但 是 ，RMM 法 要 求 配 置 逆 
序 的 切 词 词典 ， 这 样 的 词典 与 人 们 的 语言 习惯 不 相符 合 ， 修 改 和 维护 
都 不 太 方 便 。 


e ZED VERS: 这 种 方法 是 把 词典 中 存放 的 词 按 由 长 到 短 的 
顺序 ， 逐 个 与 竺 切 词 的 语 料 进 行 匹 配 ， 直 到 把 语 料 中 的 所 有 的 词 都 切 
分 出 来 为 止 。 由 于 这 种 方法 要 把 在 词典 中 的 每 一 个 词 都 匹配 一 遍 ， 需 
要 人 花费 很 多 时 间 ， 算 法 的 时 间 复 杂 度 相应 增加 ， 切 词 的 速度 较 慢 ， 切 
词 的 效率 不 高 。 


e 双向 扫描 法 : 分 别 用 MM 法 和 RMM 法 进行 正 向 和 逆向 的 扫描 和 
初步 的 切 分 ， 并 将 用 MM 法 初步 切 分 的 结果 与 用 RMM 法 初步 切 分 的 结 
果 进 行 比较 ， 如 果 两 种 结果 一 致 ， 则 判定 切 分 正确 ， 如 果 两 种 结果 不 
一 致 ， 则 判定 为 疑点 。 这 时 ， 或 者 结合 上 下 文 有 关 的 信息 ， 或 者 进行 
人 工 干 预 ， 选 取 一 种 切 分 为 正确 的 切 分 ， 由 于 要 做 双 辐 扫 撒 ， 时 间 复 


杂 度 增加 ， 而 且 ， 为 了 使 切 词 词典 能 够 同时 文 持 正 同 和 过 问 两 种 顺序 
的 匹配 和 搜索 ， 词 典 的 结构 比 一 般 的 切 词 词 典 要 复 洒 得 多 。 


e TIEMIE (Optimum Matching Method， 简 称 OM 法 ) : ZEW 
词 词典 中 ， 按 词 的 出 现 频率 的 大 小 排列 词 条 ， 高 频率 的 词 排 在 前 ， 低 
频率 的 词 排 在 后 ， 从 而 缩短 查询 切 词 词 典 的 时 间 ， 加 快 切 词 的 速度 ， 
使 切 词 达到 最 佳 的 效果 。 这 种 切 词 方法 对 于 切 词 的 算法 没有 什么 改 
进 ， 只 是 改进 了 切 词 词典 的 排列 顺序 ， 它 虽然 降低 了 切 词 的 时 间 复 杂 
度 ， 却 没有 提高 切 词 的 正确 率 。 


e 设立 切 分 标志 法 : 在 书面 汉语 中 存在 的 切 分 标志 有 两 种 ， 一 种 
是 目 然 的 切 分 标志 ， 如 标点 符号 ， 词 不 能 跨越 标点 符 吕 而 存在 ， 标 点 
符号 必定 是 词 的 边界 之 所 在 ; 另 一 种 是 非 目 然 的 切 分 标志 ， 如 只 能 在 
词 首 出 现 的 词 首 字 、 只 能 在 词尾 出 现 的 词尾 字 、 没 有 构 词 能 力 的 单 音 
节 单 纯 词 、 多 音节 单纯 词 、 拟 声 词 等 ， 词 显然 也 不 能 跨越 这 些 标志 而 
存在 ， 它 们 也 必定 古 词 的 边界 之 所 在 。 如 采 我 们 搜集 了 大 量 的 这 种 切 
分 标志 ， 切 词 时 ， 先 找 出 切 分 标志 ， 整 可 以 把 句子 切 分 成 一 些 较 短 的 
字段 ， 然 后 再 用 MM 法 或 RMM 法 进一步 把 词 切 分 出 来 。 使 用 这 种 方法 
切 词 ， 要 额外 消耗 时 间 来 扫描 切 分 标志 ， 还 要 花费 存 贮 空间 来 存放 非 
目 然 的 切 分 标志 ， 使 切 词 算法 的 时 间 复 洒 度 和 空间 复 洒 度 都 大 大 增加 
了 ， 而 切 词 的 正确 率 却 不 能 提高 。 所 以 ， 采 用 这 种 方法 的 目 动 切 词 系 


统 不 多 。 


e 有 穷 多 级 列举 法 : 这 种 方法 把 现代 汉语 中 的 全 部 词 分 为 两 大 
类 : 一 类 是 开放 词 ， 如 名 词 、 动 词 、 形 容 词 等 ， 它 们 的 成 员 几 乎 是 无 
穷 的 ， 另 一 类 是 闭锁 词 ， 如 连词 、 助 词 、 叹 词 等 ， 它 们 的 成 员 是 可 以 
一 一 枚 举 的 。 切 词 时 ， 先 切 出 具有 特殊 标志 的 字符 串 ， 如 阿拉 伯 数 
字 、 拉 丁字 母 等 ， 再 切 出 可 枚 举 的 闭锁 词 ， 最 后 再 逐 级 切 出 开放 词 。 


这 是 一 种 完全 立足 于 语言 学 的 切 词 方法 ， 在 计算 机 上 实现 起 来 还 有 困 
难 。 


e 联想 一 回溯 法 ( Association-Backtracking Method , fal M AB 
法 ) : 这 种 方法 要 求 建立 三 个 知识 库 一 -特征 词 词 库 、 实 词 词 库 和 规 
则 库 。 首 先 将 等 切 分 的 汉字 字符 串 序 列 按 特征 词 词 库 分 割 为 才干 子 
串 ， 子 串 可 以 是 词 ， 也 可 以 是 由 儿 个 词组 合 而 成 的 词 群 ， 然 后 ， 再 利 
用 实 词 词 库 和 规则 库 将 词 群 再 细 分 为 词 。 切 词 时 ， 要 利用 一 定 的 语法 
知识 ， 建 立 联想 机 制 和 回溯 机 制 。 联 想 机 制 由 联想 网 络 和 联想 推理 构 
成 ， 联 想 网 络 描述 每 个 虚词 的 构 词 能 力 ， 联 想 推 理 利用 相应 的 联想 网 
络 来 判定 所 描述 的 虚词 完 竟 是 单独 成 词 还 是 作为 其 他 词 中 的 构 词 成 
分 。 回 调 机 制 主要 用 于 处 理 歧义 句子 的 切 分 。 联 想 一 回溯 法 虽然 增加 
了 算法 的 时 间 复 杂 度 和 空间 复杂 度 ， 但 是 这 种 方法 的 切 词 正确 率 较 
高 ， 是 一 种 行 之 有 效 的 方法 。 


e 基于 词 频 统计 的 切 词法 : 这 种 方法 利用 词 频 统计 的 结果 来 帮助 
在 切 词 过 程 中 处 理 歧义 切 分 字段 。 例 如 ，AB 是 一 个 词 ，BC 是 为 一 个 
词 ， 如 果 词 频 统 计 的 结果 说 明了 BC 的 出 现 频率 大 于 AB 的 出 现 频 率 ， 
那么 ， 在 处 理 卜 义 切 分 字段 ABC 时 ， 束 把 BC 作为 一 个 单词 ，A 作 为 一 
个 单词 ， 而 排斥 AB 作 为 一 个 单词 的 可 能 性 ， 也 就 是 把 ABC 切 分 为 
A/BC. 这 种 方法 的 缺点 是 ， 由 于 只 考虑 词 频 ， 出 现 频率 较 低 的 词 总 是 
被 错误 地 切 分 。 


e 基于 期 望 的 切 词法 : 这 种 方法 认为 ， 一 个 词 的 出 现 ， 它 后 面 紧 
随 的 词 回 会 有 一 种 期 望 ， 根 据 这 种 期 望 ， 在 词 表 中 找 出 所 对 应 的 词 ， 
从 而 完成 切 分 。 这 种 方法 增加 了 切 词 的 空间 复杂 度 ， 但 再 一 定 程度 上 
提高 了 切 词 的 正确 率 。 


此 外 ， 近 来 提出 的 基于 专家 系统 的 切 词法 和 基于 神经 网 络 的 切 词 
法 ， 利 用 人 工 智 能 的 方法 来 进行 汉语 书面 语 的 目 动 切 分 ， 也 取得 了 较 
好 的 成 绩 。 


上 述 切 词 方法 中 ，MM 法 、RMM 法 和 逐 词 遍历 法 是 最 基本 的 机 械 
性 的 切 词 方法 ， 其 他 的 几 种 方法 ， 都 不 是 纯粹 意义 上 的 机 械 性 的 切 词 
方法 。 在 实际 的 汉语 书面 语 自动 切 词 系统 中 ， 一 般 都 是 几 种 方法 配合 
使 用 ， 从 而 达到 最 理想 的 切 词 效果 。 


3. 歧义 切 分 字段 


书面 汉语 自动 切 词 的 难点 是 “ 牙 义 切 分 字段 ” 〈《 为 了 行文 的 方便 ， 
本 书 中 有 时 也 简称 为 “ 靶 义 字段 ?) 的 处 理 。 我 国学 者 在 这 方面 进行 了 
比较 深入 的 探讨 。 


北京 航空 航天 大 学 梁 南 元 发 现 ， 在 上 自动 切 词 的 过 程 中 ， 只 是 在 层 
义 切 分 字段 时 才 有 可 能 发 生 错 误 的 切 分 。 而 歧义 切 分 字段 从 构成 形式 
上 可 分 为 两 类 : 一 类 是 交集 型 收 义 切 分 字段 ， 一 类 是 多 义 组 合 型 歧义 
切 分 字段 。 

在 字段 S=al .…ai ...b, ...bj...c4 ck 中， 如果 al ...a;...b, ...b; 和 bj 
obj …c1 .ck 分别 都 构成 词 ， 则 字段 S 成 称 为 区 集 型 收 义 切 分 字段 ， 
其 中 bl ...b 称 为 交 段 。 例 如 ， 在 字段 “太平 淡 ? 中 ,“ 太 平 ? 和 “平淡 ?分 
别 成 词 ,，“ 平 ”为 交 段 ， 所 以 ,“ 太 平淡 ”是 交集 型 歧义 切 分 字段 。 


在 字段 5=al .…ai ...b, ...b; 中， 如 有 果 ai ...a; > b, b 和 S 三 者 都 分 
别 成 词 ， 则 字段 s 称 为 多 义 组 合 型 上 政 义 切 分 字段 。 例 如 ， 在 字段 “ 烤 日 
Bech | "WE" «Fe Ae ee = ea pallial, BIA, "SEX" 
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梁 南 元 的 上 述 发 现 是 对 汉语 目 动 切 词 理论 的 重要 贡献。 这 个 发 现 
对 在 汉语 切 词 过 程 中 出 现 的 形形色色 的 错误 切 分 作 了 科学 的 概括 。 


北京 师范 大 学 何克抗 等 进一步 分 析 了 这 两 种 歧义 切 分 字段 产生 的 
原因 和 性 质 。 


他 们 认为 ， 交 集 型 层 义 切 分 字段 是 由 词 与 词 之 间 的 交叉 组 合 产生 
的 。 在 字段 S= ay ...aj ...b, -bj .…c1 ck 中 ， 由 于 交 段 bl ...b; BERT Say 
...ai 组 合成 词 ， 又 能 与 c ...cy AAR, WRT AMAA, MT REX 
义 切 分 。 从 产生 的 根源 上 看 ， 有 下 列 儿 种 不 同 的 类 型 : 


(1) 名 词 + 名 词 


例如 ， 在 句子 “用 树 形 图 形式 加 以 摘 述 ”中 ， 此 义 字 段 < 图 形式 ”是 
由 名 词 “ 图 ”与 名 词 “ 形 式 ” 之 间 的 交叉 组 合 产 生 的 一 一 “图 形 ”+“ 形 式 ”。 
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地 切 分 出 来 的 片段 , “形式 ?是非 歧义 词 ， 它 是 此 义 字 段 “ 图 形式 ”在 给 
定 句子 中 ， 按 正确 的 切 分 方式 切 分 出 来 的 片段 。 


(2) 动词 + 名 词 


例如 ， 在 句子 “人 研究 生命 的 本 质 ? 中 ， 歧 义 字 段 “ 研 究 生 命 " 是 由 动 
词 “研究 ”与 名 词 “生命 ”之 间 的 交叉 组 合 产 生 的 一 一 “研究 生 ” (歧义 


词 ) +“ 生 命 ” ( 非 歧 义 词 ) 
(3) 形容 词 + 名 词 


例如 ， 在 句子 “日 天 笋 游 过 来 了 ”中 ， 上 收 义 字段 “白天 笋 ” 是 由 形容 
词 “ 晶 ”与 名 词 “ 天 鹅 * 之 间 的 交叉 组 合 产 生 的 一 一 “白天 ”( 上 收 义 词 ) 
HRR” (EBD) 。 


(4) 介词 + 名 词 


例如 ， 在 句子 “让 位 移 等 于 50 厘 米 " 中 ， 歧 义 字段“ 让 位 移 " 是 由 介 
词 “让 ”与 名 词 “< 位移" 之 间 的 交叉 组 合 产生 的 一 “让 位 ” (歧义 词 ) 
+ 位 移 ”( 非 歧义 词 ) 。 


(5) 连词 + 名 词 


例如 ， 在 短语 “独立 自主 和 平等 互利 的 原则 中， 歧义 字段 < 和 平 
等 "是 由 连词 < 和 ”与 名 词 “平等 "的 交叉 组 合 产生 的 一 “和 和平 ” (歧义 
W) +* 平 等 ”( 非 歧义 词 ) 。 


(6) 副词 + 形容 词 


例如 ， 在 句子 “这 本 小 说 的 情节 太平 淡 了 ”中 ， 歧 义 字段 "太平 
淡 "是 由 副词 “ 太 "与 形容 词 “平淡 "的 交叉 组 合 产生 的 一 “太平 ”( 歧 义 
词 ) + 平淡 ” ( 非 歧义 词 ) 。 


(7) 助词 + 形容 词 


例如 ， 在 短语 “对 这 种 现象 的 确切 描述 ”中 ， 皮 义 字 段 的 确切 ?是 
由 助词 “的 ”与 形容 词 * 确 切 ”的 交叉 组 合 产生 的 一 一 的确” 歧义 词 ) 


+” GEEF) 。 


(8) 名 词 + 连 词 


例如 ， 在 句子 “社会 需求 和 生产 水 平 有 了 矛盾” 中， 歧义 字段 “需求 
和 ”是 由 名 词 “ 需 求 " 与 连词 < 和 ”的 交叉 组 合 产生 的 一 一 “需求 ”( 非 歧义 
i) +R AN” (歧义 词 ) 。 


(9) 动词 + 介词 


例如 ， 在 句子 “他 们 看 中 和 日 本 人 做 生意 的 机 会 "中 ， 牙 义 字 段 “ 看 
中 和 ”是 由 动词 “看 中 "与 介词 < 和 ”的 交叉 组 合 产生 的 一 一 “看 中 ”( 非 层 
义 词 ) +“ 中 和 ” (歧义 词 ) 。 


由 以 上 例子 可 以 看 出 ， 交 和 集 型 歧义 切 分 字段 a ...aj ...by ...b; ...cy 
Cy 的 交 段 bl .…b 与 其 后 继 字 种 ci ...c, 所 组 成 的 非 收 义 词 的 词类 ， 可 
以 从 歧义 切 分 字段 本 里 提供 出 来 。 例 如 ， 在 歧义 切 分 字段 “日 天 
和 急 ” 中 ， 交 段 为 “< 天”， 它 的 后 继 字 段 “ 鹅 * 组 成 的 非 层 义 词 “ 天 筷 ”"， 其 词 
类 为 名 词 。 歧 义 字 段 本 和 吴 为 我 们 提供 了 非 层 义 词 “ 天 鹅 * 的 词类 信息 。 
交集 型 收 义 切 分 字段 a ...a; -b1 ...b; …c1 -Ck 的 交 段 bl ...b, 与 其 前 趋 
a, ...ai 所 组 成 的 非 歧 义 词 的 词类 ， 也 可 以 从 歧义 切 分 字段 本 身 提 
供出 来 。 例 如 ， 在 歧义 切 分 字段 “需求 和 ”中 ， 交 段 为 " 求 ”， 它 与 前 趋 
字 串 “ 需 ” 组 成 非 改 义 词 “需求 >， 其 词类 为 名 词 ， 靶 义 切 分 字段 本 喘 也 
为 我 们 提供 了 非 玻 义 词 “需求 ”的 词类 信息 。 交 集 型 收 义 切 分 字段 可 以 
为 我 们 提供 非 蚊 义 切 分 的 特征 信息 ， 这 是 交集 型 改 义 切 分 字段 非常 宝 
贵 而 重要 的 特点 。 根 据 这 个 特点 ， 我 们 可 以 事先 为 汉语 词汇 中 的 每 个 
词 建立 词法 知识 库 ， 并 在 该 知识 库 中 为 可 能 产生 上 收 义 切 分 的 词 条 加 上 
歧义 标志 和 歧义 类 型 编号 ， 这 样 ， 在 实际 切 分 歧义 字段 时 ， 只 要 利用 


该 字段 中 的 交 段 bl .…b 与 其 后 继 字 串 cl un, (或 其 前 趋 字 串 al .ai ) 
所 组 成 的 非 层 义 词 的 已 知 词类 信息 ， 再 通过 适当 的 浊 辑 推理 ， 就 可 以 
对 这 类 歧义 切 分 字段 作出 唯一 正确 的 切 分 。 


例如 ， 在 上 述 第 (3) 种 类 型 的 卜 义 切 分 字段 “白天 鹅 * 中 ， 因 交叉 
组 合 产 生 的 歧义 词 是 “日 天 ”， 交 上 段 是 “天 ”， 该 交 段 的 后 继 字 串 
为 “ 鹅 *"， 二 者 组 成 非 上 收 义 词 “天 鹅 ”*"， 并 已 知 其 词类 信息 为 名 词 。 如 琳 
在 词法 知识 库 中 ， 对 歧义 词 “ 日 天 ”加 上 歧义 标志 和 相应 的 歧义 类 型 编 
号 ， 并 建立 如 下 的 规则 : 
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则 ， 确 认 该 歧义 词 为 词 。 


于 是 ， 根 据 歧 义 词 “ 日 天 ”的 歧义 类 型 编号 调用 上 述 规 则 ， 并 利用 
词法 知识 库 中 有 关 该 卜 义 切 分 字段 的 交 段 “天 ”与 其 后 继 子 捉 “ 筷 ” 组 成 
词 的 知识 ， 检 查 这 个 词 是 否 为 名 词 ， 并 进行 逻辑 推理 ， 就 可 以 确定 ， 
在 切 分 歧义 字段 “白天 笋 ”时 ， 应 将 歧义 词 “ 白 天 ”的 首 字 “日 * 单 切 ，“ 白 
天 鹅 ”应 切 分 为 “ 白 / 天 和 势 *”。 这 是 对 歧义 切 分 字段 “日 天 物 ” 作 出 的 唯一 正 
确 的 切 分 。 


又 如 ， 在 上 述 第 (8) 种 类 型 的 歧义 切 分 字段 < 需求 和 ?中 ， 因 交叉 
组 合 产生 的 靶 义 词 羡 * 求 和 ”， 交 段 是 “ 求 ”， 该 交 段 的 前 趋 字 串 
为 “" 需 ”， 二 者 组 成 非 玫 义 词 “需求 ”， 并 已 知 其 词类 信息 为 名 词 。 如 采 
在 词法 知识 库 中 ， 对 攻 义 词 " 求 和 ”加 上 卜 义 标志 和 相应 的 下 义 类 型 纺 
号 ， 并 建立 如 下 的 规则 : 


如 果 交 段 与 其 前 趋 字 串 组 成 名 词 ， 则 将 该 歧义 词 的 尾 字 单 切 ， 香 
则 ， 确 认 该 歧义 词 为 词 。 


于 是 ,根据 歧义 词 “ 求 和 ”的 歧义 类 型 编写， 调用 上 述 规 则 ， 在 词 
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串 “ 需 ”所 组 成 的 词 为 名 词 ， 进 行 逻辑 推理 ， 就 可 以 确定 ， 在 切 分 歧义 
字段 “需求 和 ”时 ， 应 将 歧义 词 “ 求 和 ”的 尾 字 单 切 ,“ 和 需求 和 ”应 切 分 
为 “需求 /和 ?”。 这 是 对 攻 义 切 分 字段 “需求 和 ”做 出 的 唯一 正确 的 切 分 。 


对 于 其 他 类 型 的 交集 型 收 义 切 分 子 段 ， 不 难 建立 相应 的 规则 ， 并 
为 其 中 的 歧义 词 设置 相应 的 歧义 类 型 编写， 然后 利用 词法 知识 库 中 有 
天 词类 信息 的 知识 ， 进 行 类 似 的 逻辑 推理 ， 束 可 以 做 出 唯一 正确 的 切 


分 。 


由 于 对 交集 型 歧义 切 分 字段 的 正确 切 分 ， 仅 只 需要 关于 词类 的 信 
息 ， 所 以 ， 可 以 把 这 类 歧义 切 分 字段 ， 从 性 质 上 划 为 “与 词类 有 关 的 歧 
义 切 分 字段 "， 简 称 为 “词法 歧义 字段 ”。 

多 义 组 合 型 歧义 切 分 字段 比较 复杂 ， 这 种 歧义 切 分 字段 是 由 词 与 
词 之 间 的 串联 组 合 产生 的 。 在 字段 S=al .ai .…bi .…b; H, HFa .ai， 
b, b 和 Ss 三 者 都 能 分 别 成 词 ， 字 串 ai .ai SHARD, ...b, 形成 了 串联 
组 合 ， 才 产生 歧义 切 分 。 从 产生 的 根源 上 看 ， 有 下 列 几 种 不 同 的 类 
型 . 


(1) 量词 + 名 词 


例如 ， 在 句子 “一 阵风 吹 过 来 了 ?中 ， 牙 义 切 分 字段 "阵风 ?是 由 量 
词 “ 阵 ”和 名 词 “ 风 ”的 串联 组 合 产 生 的 。 


(2) 介词 + 名 词 
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介词 “把 ?和 名 词 手 ”的 串联 组 合 产生 的 。 


(3) 动词 + 名 词 


例如 ， 在 句子 “他 喜欢 吃 烤 日 慕 * 中 ， 歧 义 切 分 字段 “ 烤 日 暮 ” 是 由 
动词 “ 米 ” 和 名 词 “ 日 暮 ” 的 串联 组 合 产 生 的 。 


(4) 名 词 + 方 位 词 


例如 ， 在 句子 “他 骑 在 马上 ”中 ， 歧 义 切 分 字段 “马上 ”是 由 名 
词 “ 马 ?和 方位 词 < 上 ”的 串联 组 合 产生 的 。 


(5) 名 词 + 动 词 


(5a) : 例如 ， 在 句子 “语言 学 起 来 并 不 十 分 容易 ”中 ， 靶 义 切 分 
字段 “语言 学 ”十 由 名 词 “语言 "和 动词 “学 ”的 串联 组 合 产 生 的 。 


(5b) : 例如 ， 在 句子 “学 生 会 兴奋 得 手舞足蹈 "中 ， 歧 义 切 分 字 
段 “ 学 生 会 ?是 由 名 词 “ 学 生 ” 和 动词 “会 ”的 串联 组 合 产生 的 。 


(5c) : 例如 ， 在 句子 “乒乓 球拍 卖 完 了 ”中 ， 上 层 义 切 分 字段 < 乒乓 
球 担 ? 是 由 名 词 * 乒 兵 球 ”和 动词 “ 拍 ” 的 串联 组 合 产 生 的 。 


(5d) : 例如 ， 在 句子 “美国 会 采取 措施 提高 工业 竞争 力 ” 中 ， 睹 
义 切 分 字段 “美国 会 ”是 由 名 词 “ 美 国 *" 和 动词 “会 ”的 串联 组 合 产 生 的 。 


(6) 方位 词 + 动 词 


fug. AEA ee eB HZA” P, Bo Bc A) 
由 方位 词 里 ”和 动词 * 间 ”的 串联 组 合 产生 的 。 


(7) 副词 + 动词 


例如 ， 在 句子 “他 将 来 北京 探 杀 ”中 ， 睹 义 切 分 字段 “将 来 * 古 由 副 
词 “ 将 ”和 动词 “来 ”的 串联 组 合 产 生 的 。 


(8) 助词 + 动词 


(8a) : 例如 ， 在 句子 “他 学 会 了 解数 学 难题 ?中 ， 上 层 义 切 分 字 
段 < 了 解 " 是 由 助词 < 了 ”和 动词 “ 解 ” 的 串联 组 合 产生 的 。 


(8b) : 例如 ， 在 句子 “只 要 努力 地 学 就 可 以 学 会 "中 ， 歧 义 切 分 
字段 “地 学 ?是 由 助词 “地 ”和 动词 "学 ”的 串联 组 合 产生 的 。 


(9) 连词 :副词 


例如 ， 在 句子 “日 本 保留 向 使 用 的 古代 庙宇 已 经 不 多 了 ”中 ， 上 收 
义 切 分 字段 “< 和尚” 是 由 连词 < 和 ?与 副词 “ 沿 ” 的 串联 组 合 产生 的 。 


由 上 所 述 可 以 看 出 ， 在 多 义 组 合 型 履 义 切 分 字段 中 ， 层 义 字 段 束 
是 一 个 歧义 词 ， 而 非 蚊 义 词 被 包含 在 歧义 词 当中 。 例 如 ， 尼 义 字 段 “ 语 
言 学 ”同时 也 就 是 一 个 歧义 词 ， 而 非 上 收 义 词 “语言 ”和 “学 ” 则 被 包含 在 歧 
义 词 “ 语 言 学 ”中 。 在 这 种 情况 下 ， 很 难 根据 多 义 组 合 型 收 义 切 分 字段 
本 刁 来 获得 非 层 义 词 的 特征 信息 ， 只 有 跳出 多 义 组 合 型 歧义 切 分 字段 
目 身 的 框 染 ， 参 考 层 义 字段 与 其 前 趋 字 串 或 后 继 字 串 之 间 的 天 系 ， 才 
可 能 发 现 正 确 的 切 分 。 这 说 明 ， 为 了 对 多 义 组 合 型 层 义 切 分 字段 本 身 
做 出 唯一 正确 的 切 分 ， 不 能 只 考察 歧义 字段 内 部 的 情况 ， 还 必须 考察 
层 义 字段 与 其 前 后 字 串 之 间 的 关系 。 而 在 交集 型 蚊 义 切 分 字段 中 ， 攻 
义 字段 本 里 束 可 以 给 我 们 提供 非 收 义 切 分 的 特征 信息 ， 因 此 ， 多 义 组 


全 型 玻 义 切 分 字段 的 目 动 切 分 比 区 集 型 歧义 切 分 字段 的 目 动 切 分 要 难 
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多 。 
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有 些 靶 义 切 分 字段 具有 二 重 性 。 例 如 ， 在 例句 “乒乓 球拍 卖 完 
了 ”中 ， 由 名 词 “ 厂 乓 球 ” 和 动词 “ 扣 ” 串 联 组 合 而 产生 出 多 义 组 合 型 歧义 
切 分 字段 “乒乓 球 担 ”， 而 “乒乓 球拍 又 与 动词 “ 担 卖 ”交叉 组 合 而 产生 
交集 型 层 义 切 分 字段 < 乒乓 球拍 卖 ”， 这 样 一 来 ， 在 “乒乓 球拍 卖 * 这 个 
字段 中 ， 既 有 多 义 组合 型 层 义 切 分 字段 ， 又 有 交集 型 歧义 切 分 字段 。 
对 于 这 样 的 具有 二 重 性 的 歧义 切 分 字段 ， 切 分 时 也 不 能 只 考虑 字段 本 
吴 所 供 的 信息 ， 还 应 该 考虑 该 字段 与 其 前 趋 字 串 和 后 继 字 串 的 关系 。 


为 了 正确 地 切 分 多 义 组 合 型 歧义 切 分 字段 ， 可 以 利用 前 趋 字 串 和 
后 继 字 串 的 名 法、 语义 、 语 用 三 个 方面 信息 。 


第 一 ， 句 法 信息 : AS ASAIN Da E BC RBIDECT A 
后 继 字 串 之 间 ， 存 在 着 密切 的 搭配 关系 ， 这 时 吏 可 以 利用 有 关 的 句法 
信息 得 到 正确 的 切 分 。 


f| (1) 中 的 上 蚊 义 切 分 字段 “阵风 ?是 由 量词 “ 阵 ? 和 名 词 “ 风 ”的 串联 
组 合 产生 的 ， 按 非 野 义 切 分 时 的 词 间 搭配 关系 ， 量 词 之 前 应 该 有 数 
词 ， 因 此 ， 可 以 先 在 词法 知识 库 中 对 疏 义 词 “ 阵 风 ” 加 上 歧义 标志 与 相 
应 的 歧义 类 型 编号 ， 并 建立 如 下 的 规则 : 


如 果 歧 义 字段 的 直接 前 趋 字 串 是 数 词 ， 则 歧义 字段 的 首 段 单 切 ， 
否则 ， 该 歧义 字段 成 词 。 


然后 根据 “阵风 ”的 歧义 类 型 编号 调用 这 条 规则 ， 并 利用 词法 知识 
库 中 的 有 关 该 子 段 前 趋 字 串 的 信息 ， 进 行 逻辑 推理 ， 就 可 以 做 出 唯一 
正确 的 切 分 。 


例 (2) 中 的 疏 义 切 分 字段 “把 手 ” 是 由 介词 “把 "和 名 词 “ 手 ”的 串联 
组 合 而 产生 的 ， 按 非 蚊 义 切 分 时 的 词 间 搭配 关系 ， 该 歧义 字段 的 后 继 
字 串 中 必须 有 及 物 动词 ， 根 据 这 样 的 句法 知识 建立 相应 的 规则 ， 再 使 
用 与 上 述 类 似 的 推理 方法 ， 束 可 以 作出 唯一 正确 的 切 分 。 


例 (3) 中 的 上 蚊 义 切 分 字段 " 烤 白 莫 ?" 是 由 动词 “ 烤 ” 和 和 名词“ 白 划 ?的 
串联 组 合 而 产生 的 ， 按 非 层 义 切 分 时 的 词 间 搭配 关系 ， 该 歧义 字段 的 
前 趋 字 串 中 应 该 有 动词 ， 根 据 这 样 的 句法 知识 建立 相应 规则 ， 再 使 用 
与 上 述 类 似 的 推理 方法 ， 就 可 以 得 到 唯一 正确 的 切 分 。 


A (4) 中 的 疏 义 切 分 字段 “马上 ”是 由 名 词 “ 马 "和 方位 词 * 上 ”串联 
组 合 而 产生 的 ， 按 非 蚊 义 切 分 时 的 词 间 搭配 关系 ， 该 歧义 字段 的 前 趋 
字 虽 中 应 该 有 介词 ， 根 据 这 样 的 句法 知识 建立 相应 的 规则 ， 再 使 用 类 
似 的 推理 方法 ， 束 可 以 得 到 唯一 正确 的 切 分 。 


类 似 地 ， 切 分 例 (5) 中 的 歧义 字段 “语言 学 ?时 ， 要 使 用 * 该 字段 
的 后 继 字 串 中 应 有 趋向 动词 或 助词 ?这 样 的 句法 知识 ; 切 分 例 (6) 中 
的 监 义 字段 < 里 间 ? 时 ， 要 使 用 "该 字段 的 前 趋 字 串 中 应 有 介词 ?这 样 的 
句法 知识 ; 切 分 例 (7) 中 的 歧义 字段 “将 来 "? 时 ， 要 使 用 “该 字段 的 前 
趋 字 串 中 应 有 人 名 或 人 称 代 词 * 这 样 的 句法 知识 ， 切 分 例 (8) 中 的 层 
义 字 段 * 地 学 ?时 ， 要 使 用 "该 字段 的 直接 前 趋 字 串 应 该 是 形容 词 或 副 
词 ” 这 样 的 句法 知识 。 根 据 这 些 句法 知识 建立 相应 的 切 分 规则 ， 通 过 一 
定 的 逻辑 推理 ， 就 可 以 实现 对 这 些 歧义 字段 的 正确 切 分 。 


第 二 ， 语 义 信 息 : 例 (5b) 中 歧义 切 分 字段 “学 生 会 ”是 由 名 词 “学 
生 ” 与 动词 “会 ”串联 组 合 产 生 的 ， 例 (Sb) 可 以 有 两 种 切 分 结果 : 


“学 生 / 会 /兴奋 /得 /手舞足蹈 ” 


“学 生 会 /兴奋 /得 /手舞足蹈 ” 


这 两 种 切 分 结果 在 词类 与 句法 结构 上 都 十 分 相似 ， 因 此 ， 仅 仅 利 
用 词法 和 句法 的 知识 ， 难 以 对 这 两 种 切 分 结果 做 出 正确 的 判别 ， 也 残 
难以 作 做 出 正确 的 切 分 。 这 时 ， 束 须要 利用 语义 方面 的 知识 了 。 从 语 
义 上 来 看 ， 动 词 “ 兴 奋 ” 的 义 项 中 ， 要 求 动 作 的 发 出 者 应 具有 “人 ”这 个 
义 素 ， 在 名 词 “ 学 生 会 ”的 义 项 中 不 具有 这 个 义 素 ， 而 在 名 词 “ 学 生 ” 的 
义 项 中 则 具有 这 个 义 素 ， 利 用 这 样 的 语义 知识 ， 我 们 建立 如 下 的 语义 
规则 : 


如 果 歧 义 切 分 字段 后 继 动词 的 义 项 中 含有 动作 发 出 者 为 < 人 ”这 个 
义 素 ， 则 歧义 字段 的 尾 字 单 切 ， 和 否则， 该 歧义 字段 成 词 。 


在 目 动 切 分 时 ， 根 据 歧义 切 分 字段 “学 生 会 ”的 上 收 义 类 型 编号 ， 调 
用 这 条 语义 规则 ， 进 行 逻辑 推理 ， 就 可 以 得 到 如 下 正确 的 切 分 : 


“学 生 / 会 /兴奋 /得 /手舞足蹈 ” 


例 (8a) 中 歧义 切 分 字段 “< 了解? 是 由 助词 < 了 ”和 动词 “ 解 ” 的 串联 
组 合 而 产生 的 ， 例 (8a) 可 以 有 两 种 切 分 结果 : 


“他 /学 会 /了 / 解 /数学 /难题 ” 
“他 /学 会 /了 解 /数学 /难题 ” 


这 两 种 切 分 结果 的 词类 和 句法 结构 都 十 分 相似 ， 仅 只 根据 词法 和 
句法 知识 ， 难 以 得 到 正确 的 切 分 ， 但 是 根据 语义 分 析 可 知 ， 动 
词 “ 解 * 的 义 项 中 ， 要 求 宾语 应 该 具有 “数学 公式 ”或 “扣子 ”这 样 的 义 
素 ， 而 动词 * 了 解 ” 对 宾语 则 没有 这 样 的 要 求 ， 由 于 例 (8a) 中 作 宾 语 


的 “数学 难题 "符合 动词 “ 解 " 的 义 项 的 要 求 ， 由 此 可 以 判定 前 一 种 切 分 
是 正确 的 ， 从 而 也 就 排除 了 第 二 种 切 分 。 


第 三 ， 语 用 信息 : 例 (5c) 中 的 歧义 切 分 字段 < 乒乓 球拍 >， 仅 只 
根据 词法 、 句 法 和 语义 知识 ， 都 不 足以 判断 卖 完 的 东西 究竟 是 “乒乓 
球 ” 还 是 “乒乓 球 提 ”， 这 时 ， 殉 得 根据 语言 交际 的 具体 环境 的 语 用 方面 
的 知识 ， 才 能 决定 冤 竟 什么 才 有 是 正确 的 切 分 。 


例 (5d) 中 的 歧义 切 分 字段 “美国 会 "， 仪 只 根据 词法 、 句 法 和 语 
义 知 识 ， 也 不 足以 判断 采取 措施 提高 工业 范 争 力 的 是 “美国 ”还 是 “美国 
会 "， 这 时 ， 就 得 根据 语言 交际 的 具体 环境 的 语 用 方面 的 知识 ， 才 能 做 
出 正确 的 切 分 。 


例 (9) 中 的 歧义 切 分 字段 < 和 尚 ”， 仅 只 根据 词法 、 句 法 和 语义 知 
识 ， 也 不 足以 判断 古代 庙宇 是 “和 和尚” 使 用 还 十 “ 尚 ”使 用 的 ， 这 也 只 好 
根据 语言 交际 的 具体 环境 的 语 用 方面 的 知识 ， 才 能 做 出 正确 的 切 分 。 


根据 上 面 所 述 的 歧义 切 分 子 段 的 性 质 ， 可 以 把 它们 分 为 四 种 不 同 
的 类 型 : 
一 利用 词法 知识 区 能 判断 的 琉 义 切 分 字段 ， 叫 做 “词法 长 义 字 


一 利用 句法 知识 才能 判断 的 琉 义 切 分 字段 ， 叫 做 “句法 长 义 字 


一 利用 语义 知识 才能 判断 的 玻 义 切 分 字段 ， 叫 做 “语义 攻 义 字 


一 利用 语 用 知识 才能 判断 的 玻 义 切 分 字段 ， 叫 做 “ 语 用 攻 义 字 


E T 


其 中 ， 词 法 歧义 字段 与 交集 型 歧义 切 分 字段 完全 对 应 ， 其 余 三 类 
则 与 多 义 组 合 型 路 义 切 分 字段 相对 应 。 


根据 何克抗 等 人 对 50833 个 汉字 的 典型 综合 语 料 的 统计 分 析 ， 在 这 
个 综合 语 料 中 ， 收 义 子 段 的 总 出 现 次 数 与 语 料 中 所 含 汉 了 字 总 数 之 比 为 
0.192%， 其 中 各 类 歧义 字段 所 占 的 比例 如 下 : 


e 词法 歧义 字段 出 现 次 数 与 语 料 中 所 含 汉字 总 数 之 比 为 0.766%， 
占 歧 义 字 段 总 次 数 的 84.109%。 


e 句法 上 下 义 字 段 出 现 次 数 与 语 料 中 所 含 汉 字 尽 数 之 比 为 0.098%， 
占 歧 义 字 段 总 次 数 的 10.8% ° 


e 语义 歧义 字段 出 现 次 数 与 语 料 中 所 售 汉 字 总 数 之 比 为 0.0319%46， 
占 歧 义 字段 总 次 数 的 3.4%。 


e 语 用 卜 义 字段 出 现 次 数 与 语 料 中 所 含 汉 字 总 数 之 比 为 0.016%， 
占 歧义 字段 总 次 数 的 1.79%。 


由 此 可 见 ， 词 法 歧义 字段 占 了 上 收 义 字段 总 数 的 绝 大 多 数 ， 句 法 睹 
义 字段 次 之 ， 语 义 歧 义 字段 再 次 之 ， 语 用 歧义 字段 最 少 。 这 意味 着 ， 
如 条 我 们 利用 词法 知识 ， 正 确 地 切 分 了 词法 监 义 字段 ， 那 么 ， 束 可 能 
解决 绝 大 多 数 的 歧义 字段 的 问题 。 如 果 我 们 进一步 利用 句法 知识 、 语 
义 知 识 、 语 用 知识 ， 则 可 进一步 解决 句法 歧义 字段 、 语 义 层 义 字 段 、 
语 用 歧义 字段 的 切 分 问题 ， 一步 一 步 地 提高 目 动 切 分 的 正确 率 。 


第 四 节 ”汉语 书面 文本 中 确定 切 词 
单位 的 某 些 形式 因素 


在 汉语 书面 文本 的 目 动 切 分 中 ， 切 分 单位 的 确定 征 一 个 关键 而 困 
难 的 问题 。 之 所 以 说 这 是 “关键 ? 问 题 ， 是 因为 如 末 切 分 单位 不 合理 ， 
将 闫 重 影 啊 目 动 切 分 的 效果 和 应 用 的 前 景 ; 之 所 以 说 这 有 是“ 困难 ” 问 
题 ， 是 因为 切 分 单位 的 确定 第 党 使 得 研究 人 员 举 棋 不 定 。 


我 国 中 文 信息 界 从 1988 年 开始 研制 《信息 处 理 用 现代 汉语 分 词 规 
范 》 的 国家 标准 ， 根 据 科 学 性 、 严 谨 性 、 稳 定性 、 通 用 性 、 实 用 性 和 
完整 性 的 原则 ， 经 过 三 年 时 间 的 研究 ， 七 易 其 稿 ， 于 1992 年 经 批准 成 
为 国家 标准 ， 标 准 号 为 GB/T13715-92。 但 是 ，《 信 息 处 理 用 现代 汉语 
分 词 规范 》 中 提出 的 “结合 紧密 ， 使 用 稳定 ”的 原则 ， 显 得 过 于 笼统 和 
含混 ， 难 于 操作 ， 而 语言 学 的 理论 上 ， 又 划分 不 清 语素 、 词 和 词组 的 
界限 ， 使 得 研究 人 员 无 所 适 从 。 


在 语言 学 界 ， 对 于 什么 是 词 ， 如 何 确定 语素 、 词 和 词组 的 界限 ， 
一 直 议 而 不 决 ， 语 言 学 界 示 能 提出 切实 可 行 的 原则 作为 确定 切 分 单位 
的 理论 依据 ， 而 且 在 关于 语素 、 词 和 词组 的 基本 理论 方面 ， 存 在 着 相 
互 记 盾 、 不 能 目 圆 其 说 的 严重 缺陷 。 本 世 对 于 这 些 问题 提出 一 些 解决 
办 法 。 


1. 理论 词 的 概念 在 语言 学 上 的 缺陷 


我 们 把 语言 学 上 的 词 叫 做 “理论 词 ” (theoretical word) ， 这 样 的 理 
论 词 的 概念 ， 在 语言 学 理论 上 与 语素 和 词组 划 水 难 分 ， 存 在 着 严重 的 
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在 语言 学 中 把 语素 分 为 自由 语素 和 医 附 语素 两 大 类 。“ 目 由 语 
素 " 是 活动 能 力 很 强 、 不 仅 可 以 与 其 他 语素 组 合成 词 、 而 且 还 可 以 单独 
成 词 使 用 的 语言 中 的 最 小 的 造句 和 单位。 例如, “地 ， 跑 ， 红 ”等 都 是 目 
由 语素 。 笑 附 语素 的 活动 能 力 不 强 ， 不 能 单独 成 词 ， 它 们 要 与 其 它 的 
语素 相 组 合 而 成 词 。 如 “机 ， 劳 ， 老 ， 小 ， 子 ， 者 ， 然 ”。 


语言 学 中 又 把 词 分 为 单纯 词 与 合成 词 两 大 类 。 单 纯 词 是 由 一 个 语 
素 构成 的 词 。 合 成 词 是 由 两 个 或 两 个 以 上 的 语素 构成 的 词 e 


由 于 单纯 词 只 由 一 个 语素 构成 ， 所 以 ， 这 个 构成 单纯 词 的 语素 必 
定 是 目 由 语素 。 这 样 一 来 ,“ 地 ， 跑 ， 红 ”等 都 是 和 目 由 语素 ， 它 们 同时 
又 可 以 看 成 单纯 词 。 从 语素 的 角度 看 是 自由 语素 ， 从 词 的 角度 看 是 单 
纯 词 。 观 察 的 角度 不 一 样 ， 名 称 不 同 ， 实 质 则 是 一 样 的 。 


在 语素 与 词 这 两 个 集合 之 间 ， 有 一 个 交集 (intersection) ， 这 个 


交集 吏 是 目 由 语素 ， 如 采 从 词 的 角度 看 ， 它 们 又 可 以 叫做 单纯 词 。 
语素 is] 


目 由 语素 = 单纯 词 


图 3.25 “语素 和 词 之 间 的 交集 


由 此 可 见 ， 荞 附 语素 和 词 之 间 的 界限 是 可 以 区 分 清楚 的 ， 茸 附 语 
素 绝 不 可 能 是 词 ， 语 素 和 合成 词 之 间 的 界限 也 是 可 以 区 分 清楚 的 ， 合 
成 词 不 可 能 是 单个 的 语素 。 然 而 ， 在 语素 和 词 之 间 有 一 个 交集 ， 这 个 
交集 ， 从 语素 的 角度 看 是 自由 语素 ， 从 词 的 角度 看 钙 单 纯 词 。 由 于 目 
由 语素 和 单纯 词 名 异 而 实 同 ， 导 致 了 合成 词 和 词组 之 间 的 界限 不 清 。 
这 是 汉语 语言 学 本 身 的 内 部 矛盾 ， 也 是 在 理论 上 的 一 个 硬 念 。 


下 面 我 们 进一步 从 结构 方面 说 明 这 种 界限 不 请 的 情况 。 


合成 词 的 构成 方式 与 词组 的 构成 方式 有 许多 一 致 的 地 方 。 


由 语 隶 和 语系 组 成 的 合成 词 ， 构 成 方式 主要 有 以 下 7 种 : 


(D 并 列 式 : 两 个 语素 并 列 在 一 起 组 成 合成 词 ， 形 成 一 种 并 列 关 
系 。 例 如 ， 


HAR, WE, W, KAE, FXR o 


DREA: 合成 词 中 的 两 个 语素 有 主 有 从 ， 后 一 个 语素 为 主体 ， 
前 一 个 语素 修饰 或 限制 后 一 个 语素 ， 形 成 一 种 偏 正 关系。 例如 ， 


Ke, Dib, MR, SA, KE e 


OLMA: 合成 词 中 的 两 个 语素 ， 前 一 个 表示 动作 ， 后 一 个 表示 
动作 涉及 的 事物 ， 形 成 一 种 文 配 和 被 文 配 的 关系 。 例 如， 


WA, HL, ER, EA, ME o 


多 补充 式 : 合成 词 中 的 两 个 语素 ， 前 一 个 表示 动作 ， 后 一 个 补充 
说 明 动 作 的 结果 ， 形 成 一 种 补充 关系 。 例 如 ， 


Hem, WH, 扩大， 缩小 ， 改 善 。 


ORRA: 合成 词 中 的 两 个 语素 ， 前 一 个 是 陈述 的 对 象 ， 后 一 个 
征 陈 述 的 内 容 ， 形 成 一 种 陈述 和 被 陈述 的 关系 。 例 如 ， 


XE. HA, tte, exe, SH 


附加 式 : 合成 词 中 的 两 个 语素 ， 只 有 一 个 表示 实在 的 意义 ， 男 
一 个 不 表示 实在 的 意义 ， 只 是 作为 一 个 辅助 成 分 ， 附 加 在 表示 实在 意 
义 的 语素 之 前 或 之 后 ， 形 成 前 缀 或 后 级。 例如 ， 


"C > ARE > SAT > HAF e 
DEEA: 合成 词 是 由 单 音节 语素 重 谷 而 构成 的 。 例 如 ， 


词组 (phrase) 是 由 词 和 词组 合 而 成 的 。 
汉语 词组 的 构成 方式 主要 有 以 下 7 种 : 


中 联合 结构 : 词组 中 的 两 个 词 是 并 列 的 ， 形 成 一 种 并 列 关 系 。 例 
如 ， 


KEJE, WERK, SAAR, AEN, PARA TEER - 


OWE: 词组 中 的 两 个 词 ， 前 一 个 是 修饰 语 ， 后 一 个 是 中 心 
语 ， 形 成 一 种 偏 正 关 系 。 例 如 ， 


ic Ate, ABATE, RDM, TAA ARH o 


@ 述 宾 结构 :词组 中 的 两 个 词 ， 前 一 个 是 述 语 ， 后 一 个 是 宾语 ， 


形成 一 种 述 语 对 宾语 的 文 配 关 系 。 例 如 ， 


AZE, MEER, KATTIR, AIEE, ITER 。 


出 述 补 结构 : 词组 中 的 两 个 词 ， 前 一 个 是 述 语 ， 后 一 个 是 补 语 ， 
形成 一 种 补充 关系 。 例 如 ， 


IRERE, SER, HF, WHA, PER -° 


( 引 主 谓 结构 :词组 中 的 两 个 词 ， 前 一 个 是 主语 ， 后 一 个 是 谓语 ， 
形成 一 种 陈述 关系 。 例 如 ， 


小 孩 咳嗽 ， 姑 女 唱 歌 ， 天 气 热 ， 月 亮 圆 ， 今 天 星期 日 。 


(附加 结构 :“ 的 字 结 构 *" 和 “所 字 结 构 ” 都 可 以 看 成 是 附加 
了 “的 ” 字 或 “所 ” 字 的 结构 ， 形 成 一 种 附加 关系 。 例 如 ， 


当 兵 的 ， 掌 柜 的 ， 当 家 的 ， 所 看 到 ， 所 人 研究， 所 驱使 。 
由 后 缀 “者 ”构成 的 一 些 长 结构 也 可 以 看 成 附加 结构 的 词组 ， 例 如 ， 


屡教不改 者 ， 成 绩 不 合格 者 ， 申 请 移民 者 ， 患 心脏 病 者 ， 庄 
贝尔 奖金 获得 者 。 


中 重 一 结构 :词组 中 的 两 个 词 ， 后 一 个 词 是 前 一 个 词 的 重合 ， 形 
成 一 种 重 到 关系 。 例 如 ， 


研究 研究 ， 练 习 练习 ， 讨 论 讨论 ， 总 结 总 结 ， 复 习 复 习 。 


可 以 看 出 ， 汉 语 的 合成 词 与 词组 的 构成 方式 存在 着 整齐 的 对 应 ， 
而 且 每 种 对 应 的 结构 所 表示 的 关系 是 相同 的 。 


这 种 对 应 关系 可 列表 比较 如 下 : 


表示 的 关系 


并 列 式 联合 结构 并 列 关 系 
偏 正式 偏 正 结 构 偏 正 关系 
X BOX 述 宾 结构 支配 关系 


补充 式 述 补 结构 补充 关系 
陈述 式 主 谓 结构 陈述 关系 
附加 式 附加 结构 附加 关系 
HAN EAA HAKR 
图 3.26 ”合成 词 与 词组 的 对 应 关系 比较 


合成 词 的 构成 方式 与 词组 的 构成 方式 的 这 种 一 致 性 ， 使 得 汉语 的 
语法 规则 易学 易 记 ， 对 汉语 的 学 习 是 有 好 处 的 。 可 是 ， 这 种 一 致 性 也 
往往 导致 合成 词 与 词组 的 界限 不 其 分明， 使 我 们 难于 判断 一 个 结构 究 


竟 是 合成 词 还 是 词组 。 


如 条 一 个 结构 由 两 个 儿 附 语素 构成 ， 必 定 是 合成 词 ， 不 可 能 是 词 
组 。 例 如 ,“ 荔 ”和 是 猪 附 语 紊 ,“ 损 ?也 是 黏附 语素 ， 它 们 结合 而 成 的 “ 宛 
损 ” 必 定 是 合成 词 ， 不 可 能 是 词组 


如 果 一 个 结构 由 一 个 猪 附 语素 和 一 个 自由 语 聚 构成， 必定 是 合成 
词 ， 不 可 能 是 词组 。 例 如 ,“ 丈 ?是 条 附 语 素 ,“ 动 ”是 目 由 语素 ， 他 们 
结合 而 成 的 “劳动 ”必定 是 合成 词 ， 不 可 能 是 词组 。 


含有 前 级 的 “老师 ”， “老虎 ”等 结构 ， 也 必定 是 合成 词 ， 不 可 能 是 
词组 ， 因 为 前 组 是 和 猪 附 语素 。 


ASR, “作者 ”, “忽然 "， 除 了 后 组 “者 ”有 时 可 
以 附加 在 多 音节 结构 之 后 构成 词组 之 外 ， 在 一 般 情 况 下 ， 也 必定 是 合 
成 词 ， 不 可 能 是 词组 ， 因 为 后 级 钙 医 附 语 妈 。 


但 是 ， 如 果 一 个 结构 由 两 个 目 由 语素 组 成 ， 问 题 就 比较 复杂 。 


如 条 组 成 结构 的 两 个 目 由 语素 都 是 双 音 世 语素 或 多 音节 语素 ， 那 
么 ， 它 们 必定 是 词组 ， 不 是 合成 词 。 例 如 , “模糊 ?是 双 音 节目 由 语 
A, “你 辑 * 也 是 双 音 市 目 由 语素 ， 由 它们 构成 的 “模糊 逻辑 ”必定 是 词 
组 ， 不 是 合成 词 。 


如 条 组 成 结构 的 两 个 目 由 语素 ， 一 个 是 双 音 节 语 隶 ， 一 个 是 单 音 
节 语 素 ， 那 么 ， 融 不 容易 判定 这 个 结构 是 合成 词 还 是 词组 。 例 如 ,，“ 担 
克 ?” 征 双 音 节目 由 语素 ,“ 和 车 ?是 单 音节 目 由 语素 ， 由 它们 结合 而 成 
的 “坦克 车 ”>， 有 人 认为 应 该 是 合成 词 ， 因 为 它 表 示 一 个 整体 概念 。 但 
是 ,“ 开 ”是 单 首 市 目 由 语素 , “坦克 ”是 双 音 节目 由 语素 ， 由 它们 构成 
的 * 开 坦克 ? 却 很 难 认 为 是 一 个 合成 词 ， 有 许多 人 认为 它 是 一 个 述 宾 结 
构 的 词组 。 


n, SMa SABA, BOSE TR, Win] 
能 使 合成 词 和 词组 的 界限 变 得 模糊 起 来 ， 难 于 判定 。 


HAMM ASA BAR ete eA, BBA, AAA 
WARN EIRA, EET Al eo HI, Ii 8 EU BB 
素 “ 大 ”与 男 外 的 单 首 市 目 由 语素 “会 ， 军 ， 陆 ， 脑 ， 好 ， 红 ”组 成 “大 
RZ, 大军 ， 大 陆 ， 大 脑 ， 大 好 ， 大 红 ” 时 ， 有 人 会 认为 前 后 语素 之 间 结 
合 得 很 紧密 ， 应 该 是 合成 词 。 但 是 ， 当 “大 ”与 男 外 的 单 音 市 目 由 语 
RB, WM, MEARKE, KI, AIT, REME A A w EH a 


语素 之 间 结 合 得 不 很 紧密 ， 它 们 不 太 像 合成 词 ， 而 似乎 应 该 是 词组 


MUN, APARATO, WEBS. WRK, HEA”, ARMA 
平 是 合成 词 。 可 是 ， 有 了 时， 其 中 的 语素 可 以 分 离开 来 : 


洗澡 一 洗 了 一 次 涡 
8g35—89 T —1- 85 
游泳 一 游 了 一 次 六 


理发 一 理 了 一 次 发 


这 时 ， 它 们 似乎 又 不 像 是 合成 词 。 究 竟 是 合成 词 还 是 词组 ， 难 于 


结构 单元 


黏附 语素 
自由 语素 
单纯 词 
合成 词 
W] 组 


图 3.27 语素 、 词 和 词组 的 区 别 比 较 


从 此 图 中 可 以 看 出 : 


E 可 以 根据 “是 否 有 意义 ”, “是 否 为 最 小 单 
位 ”, “能 否 独立 运用 ”, “包含 语素 数 ”, “包含 单 词 数 ” 等 5 个 性 质 来 鉴 


别 。 这 5 个 性 质 之 间 的 关系 是 逻辑 上 的 合 取 关系 (A) ， 也 就 是 说 ， 每 
一 个 结构 单元 ， 要 同时 根据 这 5 个 性 质 来 鉴别 ， 如 有 果 仅 仅 根 据 其 中 的 某 
一 个 性 质 或 者 某 几 个 性 质 ， 古 不 可 能 鉴别 清楚 的 。 


他 自由 语素 与 单纯 词 的 性 质 完全 一 样 ， 它 们 在 实质 上 是 一 个 东 
西 。 


(合成 词 与 词组 的 前 面 4 个 性 质 都 相同 ， 只 有 最 后 一 个 性 质 
( 即 “包含 单词 数 ”) 不 同 ， 合 成 词 只 包含 一 个 单词 ， 而 词组 则 包含 两 
个 或 两 个 以 上 的 单词 ， 可是， 由 于 目 由 语素 同时 又 可 以 看 成 单纯 词 ， 
因此 ， 当 合成 词 由 两 个 自由 语素 组 成 时 ， 也 可 以 把 它 看 成 古 由 两 个 单 
纯 词 组 成 的 ， 这 样 ， 合 成 词 束 变 成 词组 了 。 


可 见 ， 在 语言 学 的 理论 上 ， 合 成 词 与 词组 的 分 界 问题 并 没有 解 
决 。 这 种 理论 上 的 缺陷 ， 实 际 上 也 是 一 种 理论 上 的 硬 伤 ， 必 然 会 在 汉 
语文 本 目 动 切 分 的 实践 中 ， 引 起 种 种 的 矛盾 和 困难 。 BI 


2. 形式 词 


为 了 克服 理论 词 在 语言 学 理论 上 的 这 种 重伤 ， 学 者 们 提出 “形式 
词 ”的 概念 。 下 面 我 们 从 形式 词 的 角度 来 讨论 确定 汉语 切 分 单位 的 主要 
形式 因素 。 


e 形式 词 的 定义 


由 于 词 是 汉语 句法 和 语义 目 动 分 析 的 基本 单位 ， 因 此 ， 当 中 文 信 
轧 处 理 从 * 字 处 理 ” 阶 段 过 涛 到 “ 词 处 理 ” 阶 段 时 ， 必 须 对 由 连续 的 汉字 


流 构成 的 、 单 词 之 间 无 空 日 的 汉语 书面 文本 进行 目 动 切 分 。 所 谓 “ 目 动 
切 分 ”， 就 是 在 汉语 书面 文本 中 ， 目 动 地 把 词 切 分 出 来 ， 这 是 中 文 信息 
处 理 的 一 个 难题 。 在 汉语 书面 文本 中 把 词 切 分 出 来 之 后 ， 才 有 可 能 对 
它 进 行 更 为 深入 的 加 工 和 处 理 。 


从 目 动 切 分 的 角度 ， 我 们 可 以 把 词 定 义 为 “在 汉语 书面 文本 中 可 以 
根据 形式 因素 分 开 的 连续 的 汉字 串 (也 可 以 是 一 个 汉字 ) "oc 这 样 定 义 
的 词 ， 叫 做 形式 词 (formal word) 。 


其 实 ， 在 汉语 书面 文本 长 期 发 展 的 过 程 中 ， 人 们 早 束 感到 了 这 种 
形式 词 的 存在 ， 篆 党 给 词 赋予 某 种 形式 ， 使 之 更 加 鲜明 醒目 。 


Bian, CBASCARSE) P, EE, eink ho o sea ch (ry edat =e 
Aer SEB LAE HOPE, Dese e MA e 


又 如 ,， “伙伴” 原来 写 为 “ 火 伴 ”后 来 在 “ 火 * 字 上 仿照 伴 * 字 加 
了 “人 ” 字 旁 ， 以 表示 它们 是 一 个 词 。 


“OR UA” ORE A UA”, Ja RTE Es RRO FO Tee 
旁 ， 以 表示 它们 是 一 个 词 。 


“SUE RRS AS”, ERE ET ER FO T 18 
T. Saas, ARRE EAN] ° 


在 汉语 书面 文本 的 目 动 切 分 中 ， 我 们 给 词 赋 以 特定 形式 的 方法 ， 
就 是 把 形式 词 与 其 前 后 的 其 他 形式 词 用 空格 分 开 ， 实 行 切 分 ， 切 分 台 
要 确定 “ 切 分 单位 *”。 确定 切 分 单位 的 形式 因素 ， 束 是 把 形式 词 从 形式 
上 表现 出 来 的 形式 手段 。 


e 确定 切 分 单位 的 主要 形式 因素 


由 于 在 理论 上 合成 词 与 词组 的 界限 问题 没有 彻 的 解决 ， 我 们 在 讨 
论 如 何 确定 切 分 单位 的 问题 时 ， 只 有 从 实践 中 逐步 摸索 和 探讨 确定 切 
分 单位 的 形式 因 妹 。 因 为 没有 坚实 的 理论 基础 ， 我 们 也 是 “ 摸 着 石头 过 
河 ”。 在 这 样 “ 摸 着 石头 过 河 ” 的 目 动 切 分 工作 中 ， 尽 管 我 们 没有 能 力 在 
理论 上 解决 合成 词 与 词组 的 界限 问题 但是， 我们 可 以 吸取 汉语 人 研究 
的 一 个 局 部 性 成 果 ， 找 出 确定 切 分 单位 的 一 些 形 式 因素 。 


从 语言 学 的 角度 来 看 ， 确 定 切 分 单位 的 形式 因素 有 三 个 方面 : 第 
一 古语 法 因素 ， 第 二 是 语义 因素 ， 第 三 是 语 首 因素 。 它 们 是 确定 切 分 
单位 的 主要 形式 因素 。 


在 语法 因素 的 方面 ， 提 出 了 如 下 的 测定 方法 : 
OPW 


用 性 质 相近 的 别 的 自由 语素 来 芍 代 待 测 结构 中 的 自由 语素 ， 如 果 
能 够 替代 ， 就 可 以 判定 为 词组 ， 而 不 是 合成 词 。 


例如 ， 在 “吃饭 "中 ，“ 吃 ”和 “ 饭 * 都 是 自由 语素 ， 要 测定 “吃饭 "是 
合成 词 还 是 词组 ， 先 用 与 “ 吃 "性质 相 近 的 自由 语素 “ 盛 *"、“ 者 ”( 它 们 
都 表示 动作 ) 其 代 “ 吃 ”， 说 成 < 盛 饭 "、“ 者 饭 "， 再 用 与 “ 饭 " 性 质 相 近 
的 自由 语素 “ 面 ”“、“ 粥 ”( 它 们 都 是 食品 ) ， 说 成 < 吃 面 ”、“ 吃 粥 ”。 由 
于 前 后 两 个 自由 语素 都 能 被 替代 ， 就 可 以 判定 "吃饭 "是 词组 ， 而 不 是 
合成 词 ， 应 切 分 为 " 吃 / 饭 "。 


蔡 代 测定 法 是 不 可 靠 的 ， 这 种 方法 容易 引出 不 合 第 识 的 错误 结 


GIR, “FER, A ARE Za MA SEB” > “SEA” 8) 
Zi" “FOB, (Hoe. MIS DRACO A A Ree 084. Te 
个 合成 词 。 替 代 测 定 法 得 出 的 结论 ， 与 人 们 的 语感 差别 太 大 。 所 以 ， 
玲 代 测定 法 只 能 作为 确定 切 分 单位 的 一 种 参考 ， 不 能 作为 可 靠 的 依 
据 。 


Go 插入 测定 法 


用 特定 的 自由 语素 (如 “的 ”) 插入 待 测定 的 结构 中 ， 如 果 能 插入 
而 不 改变 该 结构 的 意义 ， 就 判定 为 词组 ， 而 不 是 合成 词 。 


“ 形 + 名 ”的 偏 正 结构 ， 其 切 分 的 分 合 问 题 ， 可 以 用 插入 测定 法 来 确 
Ee 


一 “ 形 ”( 单 音节 ) + 名 ” ART) ， 


“新 圣 " 中 插入 特定 的 自由 语素 “的 "， 形 成 “新 的 鞋 ”"， 意 义 没 改 
变 ， 可 判定 新 和 鞋 "为 词组 ， 不 是 合成 词 ， 应 切 分 为 "新 / 鞋 "。 同 理 ，" 小 
We RE oh" NW, "Ente" nas Buen e 


“Ase "FHBLACRERE RH EE ELS H3", ERI E BUE", ROM 
与 “白菜 "不同 ， 可 判定 “ 白 荣 "不 是 词组 ， 而 是 合成 词 ， 不 能 切 分 。 同 
H, “ 红 花 ” (一 种 药材 ) Ab AN” eee, SET oe “红旗 ”都 不 切 


分 。 


一 “ 形 ”( 单 音节 ) 4" OLED) : 


“日 砂糖 ”中 插入 “的 "， 形 成 “日 的 砂糖 *"， 意 义 没有 改变 ， 可 判 
定 “ 日 砂糖 * 为 词组 ， 应 切 分 为 “日 /砂糖 *。 同 理 ,“ 甜 点心 ”应 切 分 
HEUD”, RREO AIIN EARR” ° 


“小 媚 妇 ?中 插入 特定 的 目 由 语素 “的 ”， 形 成 * 小 的 媚 妇 ”， 其 意义 
与 “小 媚 妇 ?不 同 ， 可 判定 “小 媚 妇 ?不 是 词组 ， 而 是 合成 词 ， 不 能 切 
Do AR, EHR, EEM”, “TAME L ERT BET ° 


一 “ 形 ”( 双 音节 ) m" CREE): 


“贫困 县 "中 插入 “的 "， 形 成 “贫困 的 县 "， 意 义 没有 改变 ， 可 淹 
定 “ 贫 困 县 "为 词组 ， 应 切 分 为 “贫困 /县 *"。 同 理 ，“ 富 裕 村 "应 切 分 为 “ 滞 
裕 /村 ”， “先进 队 ” 应 切 分 为 “先进 / 队 ”。 


“美丽 岛 “ 中 插入 “的 ”， 形 成 < 美丽 的 岛 ”， 其 意义 与 “美丽 岛 ”( 一 
个 地 名 ) 不 同 ， 可 判定 “美丽 岛 ? 不 是 词组 ， 而 是 合成 词 ， 不 能 切 分 。 
同 理 , “牡丹 江 ”, “横断 山 ” “ 橄 槛 绿 ”( 一 种 颜色 ) 也 不 能 切 分 。 


插入 测定 法 比较 客观 ， 适 用 范围 比较 广 ， 但 是 ， 有 时 也 会 得 出 一 


些 不 合 常 识 的 结论 。 


例如 ， 北 京 话 中 可 以 说 “ 鸡 ”， 不 可 以 说 < 芍 "， 而 要 说 成 “鸭子 ”。 
如 果 我 们 用 插入 自由 语素 “的 ”的 方法 来 测定 “鸡蛋 "和 “网 蛋 ”，“ 鸡 
蛋 * 可 以 改 说 成 < 鸡 的 蛋 "，“ 鸭 蛋 ” 不 可 以 改 说 成 “ 鸭 的 蛋 "， 于 是 得 出 结 
ib. “鸡蛋 ”是 词组 ，“ 觅 蛋 * 是 合成 词 ， 这 种 结论 与 人 们 的 语感 相差 太 
大 。 事 实 上 ， 人 们 普遍 认为 “鸡蛋 "和 “ 胸 蛋 * 都 不 是 词组 ， 而 是 合成 
LE 


可 见 ， 择 入 测定 法 并 不 是 万 能 的 ， 使 用 时 要 考虑 到 各 种 复杂 情 
diis 


除了 插入 “的 ”之 外 ， 还 可 以 插入 其 他 成 分 来 确定 切 分 单位 。 


在 目 动 切 分 中 ， 可 以 使 用 插入 “得 ?或 “不 ”的 方法 来 确定 某 些 述 补 


结构 的 分 合 问题 。 


某 些 由 动词 加 动词 或 动词 加 形容 词 构成 的 述 补 结构 ， 它 们 的 分 合 
常常 令 我 们 举 棋 不 定 。 使 用 插入 测定 法 ， 可 以 规定 ， 双 首 节 的 述 补 结 


构 中 间 ， 如 有 果 可 以 插入 “得 ”或 “不 ”?， 则 一 般 应 予 切 分 。 例 如 ， 


“ 走 到 * 可 以 插入 “得 ” 
到 "应 切 分 为" 走 /到 ”。 


“ 安 上 ”可 以 插入 “得 ” 
上 ”应 切 分 为 “E” S 


fi E"8] DU A fio 
E"RESIA di E ° 


IMET DA An 
住 "应 切 分 为 < 抓 / 住 ”。 

“ 调 好 * 可 以 插入 “得 ” 
好 ”应 切 分 为 “ 调 /好 ”。 


“ 坐 稳 " 可 以 插入 “得 ” 
Fa” VU ap * A5 fan 2 


“ 打 坏 * 可 以 插入 “得 ” 
坏 ”应 切 分 为 打 / 坏 ”。 


PA 


如 栗 述 补 结构 中 间 不 能 插入 “得 ?或 “不 ”， 则 不 切 分 


或 < 不”: “ 走 / 得 /到 ， 走 /不 /到 ”， 因 此 ,“ 走 
mU “ 安 / 得 /上 ， 安 /不 /上 ”， 因 此 ,“ 安 
或 “不 ”: “ 撞 / 得 /上 ， 撞 /不 /上 ”， 因 此 ,“ 撞 
或 “不 ”: “ 抓 /得 / 住 ， 抓 /不 / 住 >， 因 此 ,“ 抓 
或 “不 ”: “ 调 / 得 /好 ， 调 /不 /好 ”， 因 此 ,“ 调 
BAN”: “ 坐 /得 / 稳 ， 坐 /不 / 稳 ”， 因 此 ,“ 坐 
或 “不 ”:“ 打 /得 / 坏 ， 打 /不 / 坏 ”， 因 此 ,“ 打 

Tomo 


4 Rua, "wx. SER. fea, R, Zeb" 


在 有 “得 ”或 “不 ”的 述 补 结构 中 ， 如 果 去 挥 “ 得 ”或 “不 ”后 ， 前 后 两 
个 字 不 构成 一 个 词 的 ， 则 不 切 分 ， 作 为 一 个 切 分 单位 。 例 如 , “来 得 
BR, RPK”, ORE, NEG". “UMAR, WAR”, “了 不 
ie". 


语言 学 中 的 “词汇 完整 性 假设 ” (lexical integrity hypothesis) 78 
出 ， 句 法 规则 不 能 影响 到 词汇 内 部 的 任何 成 分 。 在 上 述 的 插入 测定 法 
中 ， 把 一 些 目 由 语素 插入 到 待 测 的 结构 中 ， 实 际 上 是 通过 插入 这 种 方 
法 来 观察 句法 规则 能 否 影响 到 答 测 结构 的 内 部 ， 如 采 不 能 插入 ， 束 说 
明 句 法 结构 不 能 影响 到 待 测 结构 的 内 部 ， 从 而 判定 待 测 结构 是 合成 词 
而 不 是 词组 。 所 以 插入 测定 法 实际 上 区 是 利用 “词汇 完整 性 假设 ”>， 根 
据 词汇 的 “可 拆 性 ”(separability) 来 区 别 合成 词 与 词组 的 一 种 方法 。 


ORP EMI ETE 


ELLA ORAL, MREMA SURI 
RES, REID BO» DUAL, SAHA. BINT, we 
一 个 切 分 单位 ， 不 能 切 分 。 例 如 ,“ 阿 哥 "老鹰 *，“ 非 金属 "，“ 超 声 
波 ”( 合 前 级 ) ;“ 科 长 "，“ 木 头 ”，“ 学 者 ”，“ 科 学 家 ”，“ 革 命 性 "，“ 理 
RR”, IEE (ERA 

如 果 词 中 含有 多 个 后 级 ， 仍 然 算 为 一 个 切 分 单位 ， 不 能 切 分 。 例 
如 ,“ 物 理学 家 ",“ 语 言 学 界 ",，“ 拖 拉 机 手 *,，“ 马 克 思 主义 者 "， 都 不 
切 分 。 


但 是 ， 当 某 些 前 级 的 管辖 范围 超出 了 一 个 单词 之 外 ， 仍 然 应 该 切 
分 。 例 如 ,“ 非 /国家 /工作 /人 员 ”,“ 非 /本 市 /注册 /车 辆 ”。 


(功能 完备 性 测定 法 


在 插入 测定 法 中 提 到 的 “词汇 完整 性 假设 ”说 明了 合成 词 应 该 具有 
完备 的 功能 ， 而 词组 则 不 一 定 具 有 像 合成 词 那样 完备 的 句法 功能 。“ 词 
汇 完整 性 假设 ?是 词 汇 的 "功能 完备 性 ?的 一 种 反映 ， 词 汇 的 “功能 完 
EARE: 句法 规则 只 表现 于 词 与 词 之 间 ; 单词 具有 完备 的 句法 功 
能 ， 而 词组 不 能 具有 单词 能 够 具有 的 那样 完备 的 句法 功能 。 我 们 可 以 
利用 行 测 对 象 功 能 的 完备 性 来 判定 其 是 否 为 形式 词 。 功 能 完备 的 是 合 
成 词 ， 功 能 不 完备 的 是 词组 。 


除了 前 面 提 到 的 “可 拆 性 ?之 外 ， 功 能 完备 性 表现 在 如 下 两 方面 : 


1) 动词 的 “及 物性 ” (transitivity) : “及 物性 ?是 动词 的 重要 句法 
规则 ， 动 词 合成 词 后 面 可 以 直接 插入 宾语 ， 而 动词 词组 后 面 则 不 能 
接 插 入 宾语 。 具 体 地 说 ， 


[11] METH [DA] 式 组 合 后 能 直接 带 宾语 ， 可 判定 为 合 
成 词 。 例 如 , “ASE aM RIDE Be (“得 罪人 ”) ， 因 而 可 判 
定 “ 得 罪 ” 是 合成 词 。 同 理 ， 可 判定 “抱怨 (ARA). XD (关心 
ft) ,担心 (担心 他 ) ， 进 口 (进口 货物 ) ， 留 神 (留神 钱包 ) ”是 合 
成 词 ， 不 能 切 分 。 


[1+2] 三 音节 的 [2X] 式 组 合 后 不 能 直接 带 宾语 ， 可 判定 为 
词组 。 例 如 ,“ 开 玩笑 "后面 不 能 直接 带 宾语 ("开玩笑 人 ) ， 因 而 可 判 
定 “ 开 玩笑 ?是 词组 。 同 理 ， 可 判定 “动手 术 (动手 术 他 ) ^ BAR C 
KERM) ”是 词组 ， 应 该 切 分 。 


[11] 双 音 节 的 [eth] 式 组 合 后 能 直接 带 宾语 ， 可 判定 为 合 
成 词 。 例 如 ,，“ 想 透 " 后 面 可 直接 带 宾 语 〈 想 透 问 题 ) ， 因 而 可 判定 “ 想 


E EARN o AME, THERME (RRF) ， 摆 齐 GE 
子 ) ， 绑 好 GRAY) ， 写 出 〈 写 出 文章 ) ”是 合成 词 ， 不 能 切 


oe 


o 


ow 


[1+2] 三 音节 的 [met] 式 组 合 后 不 能 直接 带 宾语 ， 可 判定 为 
词组 。 例 如 ,“ 想 透彻 "后面 不 能 直接 带 宾语 C 想 透 彻 问题 ， ， 因 而 可 
判定 “ 想 透 彻 ” 是 词组 。 同 理 ， 可 判定 “ 民 嘲 是 C SRL), FRE 
jr CHERRY) ， 绑 结实 CC 绑 结实 绳子 ) 。 写 通顺 C 写 通顺 文 
章 ) ， 说 流利 C 说 流利 汉语 ) ”是 词组 ， 应 该 切 分 。 


2) 形容 词 前 加 “非常 、 特别 ”修饰 : 


[1+1] 双 音 节 的 [exp] 式 形容 词 ， 前 面 能 加 “非常 、 特 
别 " 等 副词 修饰 ， 可 判定 为 合成 词 。 例 如 ，“ 可 爱 "前 面 可 加 “非常 、 特 
别 * 修 饰 (非常 可 爱 、 特 别 可 爱 ) ， 因 而 可 判定 “可 爱 " 是 合成 词 。 同 
理 ， 可 判定 “可 恨 (非常 可 恨 、 特 别 可 恨 ) ， 可 翡 (非常 可 翡 、 特 别 可 
35) , "DAE (非常 可 耻 、 特 别 可 耻 ) ,可疑 (非常 可 疑 、 特 别 可 
疑 ) "是 合成 词 ， 不 能 切 分 。 


[12] 三 音节 [+o] 式 形容 词 ， 前 面 不 能 加 “非常 、 特 
别 ”等 副词 修饰 ， 可 判定 为 词组 。 例 如 ,“ 可 喜爱 ”前 面 不 能 加 “非常 、 
特别 ?修饰 非常 可 喜爱 、“ 特别 可 喜爱 ) ， 因 而 可 判定 “可 喜爱 ”是 
词组 ， 应 该 切 分 。 同 理 ， 可 判定 “可 痛恨 CEA Dm 特别 可 痛 
TR) , TER CSR APA RSs “Reale Ane) ， 可 羞耻 CSR AP al ae 
耻 、“ 特别 可 羞耻 ) ， 可 怀疑 (非常 可 怀疑 、” 特别 可 怀疑 ) ”是 词 
组 ， 应 该 切 分 。 


由 此 可 见 ， 词 组 往往 会 失去 单词 所 具有 的 完备 的 句法 功能 ， 因 此 
我 们 可 以 使 用 功能 完备 性 测定 法 来 判定 切 分 单位 。 


在 语义 因素 的 方面 ， 提 出 了 如 下 的 方法 : 
QD 意义 单纯 性 判定 法 


根据 待 测 结构 中 两 个 语素 意义 结合 而 成 的 总 体 意义 的 单纯 性 来 判 
定 。 总 体 意义 单纯 的 判定 为 合成 词 ， 总 体 意 义 不 单 纯 的 判定 为 词组 。 


例如 ，“ 城 市 "的 总 体 意 义 单纯 ， 是 合成 词 ， 是 一 个 切 分 单位 ;“ 夫 
妻 * 的 总 体 意义 不 单纯 ， 它 的 意义 等 于 “ 夫 *” 与 “ 妻 "的 意义 的 总 和 ， 是 词 
组 ， 应 切 分 为 “ 夫 / 妻 *。 


“东西 ”这 个 结构 有 攻 义 。 当 它 的 意义 表示 事物 时 ， 意 义 单纯 ， 是 
合成 词 ， 是 一 个 切 分 单位 ; 当 它 的 意义 表示 "东边 和 西边 ?时 ， 这 个 意 
等 于 “ 东 ” 和 “ 西 ” 的 总 和 和， 意义 不 单纯 ， 是 词组 ， 应 切 分 为 “ 东 / 西 ”。 


“长 短 ”这 个 结构 有 卜 义 。 当 它 的 意义 表示 一 个 人 的 优 缺 点 时 (“不 
要 议论 别人 的 长 短 ” ， 意 义 单纯 ， 是 合成 词 ， 作 为 一 个 切 分 单位 ; A 
它 的 意义 表示 “长 "和 “ 短 ” 时 ， 这 个 意义 等 于 “长 "和 “ 短 ” 的 总 和 ， 意 义 
不 单纯 ， 是 词组 ， 应 切 分 为 “长 / 短 ”。 


“深浅 "这 个 结构 也 有 歧义 ， 当 它 的 意义 表示 事物 的 分 寸 时 (“ 他 说 
话 没 深浅 ， 意 义 单纯 ， 是 合成 词 ， 作 为 一 个 切 分 单位 ， 当 它 的 意义 
表示 “ 深 " 和 "小 ”的 程度 时 〈“ 河 水 的 深浅 ") ， 其 意义 等 于 “ 深 " 和 " 浅 "的 
总 和 ， 意 义 不 单 纯 ， 是 词组 ， 应 切 分 为 “深浅”。 


“ 动 GRE) + 名 ( 双 首 节 ) ”结构 是 有 歧义 的 ， 当 它 是 偏 正 关系 
时 ， 只 表示 一 种 事物 ， 和 意义 比较 单纯 ， 不 应 切 分 ， 当 它 是 述 宾 关系 


时 ， 涉 及 到 行为 以 及 其 对 象 ， 意 义 不 单 纯 ， 应 该 切 分 。 例 如 ， 


我 /喜欢 / 吃 / 烤 白 暮 。 (AARD) 
Ji oe EZ. (K/BB Ya) 
«fr GRE) + 名 ( 单 音节 )“ 的 结构 也 有 歧义 ， 当 它 表示 一 个 事 


物 时 ， 意 义 单纯 ， 不 能 切 分 ， 当 它 是 介 宾 结构 时 ， 涉 及 到 行为 的 对 
象 ， 意 义 不 单纯 ， 应 该 切 分 。 例 如 ， 


这 /个 /把 手 / 是 / 木 制 /的 。 〈“ 把 手 “ 不 切 分 ) 
把 / 手 / 抬 / 起 来 。 (FEES) 


意义 紧密 性 判定 法 


根据 待 测 结构 中 两 个 或 诸 个 语素 意义 结合 的 紧密 性 来 判定 ， 意 义 
紧密 的 判定 为 合成 词 ， 不 切 分 ;意义 松懈 的 判定 为 词组 ， 切 分 。 


例如 , “爱国 ”中 的 两 个 自由 语素 “ 爱 ” 与 “ 国 ” 中 间 不 能 插入 别 的 成 
分 ， 意 义 结合 得 很 紧密 ， 判 定 为 合成 词 ， 不 切 分 。"“ 读 书 ” 中 的 两 个 目 
由 语素 “ 读 ” 和 * 书 ”之 间 可 以 插入 别 的 成 分 : “ 读 了 一 本 书 ”， 意 义 联系 
松懈 ， 判 定 为 词组 ， 应 切 分 为 “ 读 / 书 ”。 


国名 具有 唯一 性 ， 其 组 成 成 分 的 意义 结合 紧密 ， 是 一 个 切 分 单 
位 ， 不 应 切 分 。 例 如 , BEP, “Se”, "DER", “英国 ”。 但 是 ， 有 
的 国名 的 全 称 比 较 长 ， 一 般 应 该 切 分 ， 例 如 , “中 华 / 人 民 / 共 和 
E, “美利坚 /合众国 ”,“ 德 意志/ 联邦/ 共和国”, “大 不 列 颠 /及 / 北 爱 尔 
兰 / 联 合 /王国 ”>， 一 般 都 要 切 分 。 


沫 谱 名 中 的 各 个 成 分 ， 如 果 切 分 后 意义 相差 其 远 ， 说 明 其 意义 结 
CAE, MWAI o Au, SART”, REA”, TRA”, “松鼠 


馈 鱼 ”， 痢 不 切 分 。 但 是 ， 如 果菜 谱 名 的 意义 是 它 的 各 个 成 分 的 意义 的 
简单 组 合 ， 意 义 结合 不 紧密 ， 则 切 分 。 例 如 , “鸡蛋 / 汤 ”,“ 肉 丝 / 
Ei", E o 


Su Pia kaa Ae, AAW o> oc Hila, “四 化 ”，“ 水 
AL”, “A, SME, “科技 ”， ee TAL”, “HAD”, 
澳 台 ”, AR, RRR”, FHUP, BAR”, "UA 
但 是 ， 当 在 有 顿 号 隔 开 时 ， 则 切 分 。 例 如 ,，“ 港 /、/ 澳 /、/ 台 /同胞 ”。 


四 字 成 语 和 习惯 用 语 ， 各 成 分 意义 结合 紧密 ， 难 以 拆 开 ， 不 切 
分 。 例 如 ,“ 胸 有 成体 ”, “一 衣 市 水 ”, "UUXAUH eU". “众所周知 ”，“ 春 
夏秋 冬 ”,“ 充 其 量 ",“ 由 此 可 见 ”,“ 喝 西北 风 ”,“ 闲 人 免 进 ”。 


超过 四 个 字 的 成 语 和 惯用 语 ， 各 成 分 意义 结合 紧密 ， 也 不 切 分 。 
例如 , “一 年 之 计 在 于 春 ”, “不 管 三 七 二 十 一 ”。 但 是 ， 当 有 标点 符号 
隔 开 时 ， 则 切 分 。 例 如 , “人 心 / 齐 /，/ 泰 山 / 移 ”。 


9 引申 意义 判定 法 


根据 行 测 结构 的 意义 旦 否 为 引申 意义 来 判定 ， 征 引申 意义 的 判定 
为 合成 词 ， 而 保持 本 义 的 束 可 判定 为 词组 。 


例如 , “吃饭 ”的 本 意 古 进餐 ， p 切 分 为 “ 吃 / 饭 ”; 但 
A. EAP SERCH AZ}, “ICON SRA, WA 
判定 为 合成 词 ， 不 切 分 


同样 地 , “ 吃 酷 ?的 本 义 是 “ 喝 醋 ”， 应 判定 为 词组 ， 切 分 为 " 吃 
Hu fx ere 产生 嫉妒 情绪 "时 ， 就 判定 为 合成 词 ， 不 切 分 


又 如 ,，“ 骨 ”与 “ 肉 ” 两 个 名 素 构 成 的 并 列 式 名 词 “ 骨 肉 ” 表 示 有 血缘 
关系 ， 其 合 义 不 等 于 名 素 “ 骨 ”的 含义 与 名 素 “ 肉 ”的 售 义 的 简单 尽 和 ， 
而 是 由 “ 骨 ” 与 “ 肉 ” 的 含义 引申 而 成 的 ， 应 判定 为 合成 词 ， 不 切 分 。 


再 如 ,，“ 领 "与 “ 铀 ”两 个 名 素 构 成 的 并 列 式 名 词 “ 领 袖 ”"， 表 示 “ 融 类 
人 物 ”"， 其 合 义 与 名 素 “ 领 "与 名 索 “ 袖 ”的 含义 完全 不 同 ， 
古 “ 领 "与 “ 袖 ” 舍 义 的 很 远 的 引申 ， 应 判定 为 合成 词 ， 不 切 分 。 


在 “妇女 能 顶 半 边 天 ”中 的 “半边 天 ”( 指 新 社会 的 妇女 ; , “他 真 小 
气 ， 像 个 铁 公 鸡 "中 的 “ 铁 公 鸡 ” 《比喻 一 毛 不 拔 ) ，“ 银 行 的 工作 是 铁 
ie ”中 的 “ 铁 饭 碗 ”( 比 喻 非常 稳固 的 职位 ) ,，“ 他 在 那里 钨 芯 药 ”中 
的 “ 泡 茧 妆 ”(《 比 喻 故意 纠缠 ， 拖 延 时 间 ) ， 都 具有 引申 意义 ， 不 切 


分 。 


(第 用 性 判定 法 

根据 每 测 结构 的 第 用 性 来 判定 ， 和 常用 的 判定 为 合成 词 ， 算 一 个 切 
分 单位 ,不 常用 的 判定 为 词组 ， 切 分 。 

"Ay CREE) + 方位 词 CRT) ”的 方位 词组 ， 一 般 应 该 切 
4 * Bug, "mu", “P/E”, “ 包 / 里 ”,“ 床 /下 ”。 但 是 ， 某 些 这 样 的 


方位 结构 使 用 频 度 很 高 ， 事 实 上 已 经 转化 成 处 所 词 或 时 间 词 ， 不 应 切 
分 。 例 如 ，“ 桌 上 ”，“ 胸 前 ”，“ 身 上 ”，“ 晚 上 ”，“ 午 后 "，“ 国 外 ”。 


“分 之 ”是 前 见 的 表达 分 数 的 词语 ， 不 切 分 。 


一 些 第 见 的 并 且 已 经 收入 词典 中 的 书籍 名 、 报 刊 名 ， 也 不 切 分 。 
PR, "ZLHRE, “Pa”, “OKT”, “fm RID SR”, ARH 
th”, “GHA AAR” ° 


在 语音 因素 的 方面 ， 提 出 了 如 下 的 方法 : 


停顿 判定 法 


在 一 些 包 含 多 个 汉字 的 词组 中 ， 构 成 词组 的 目 由 语素 之 间 常 有 俘 
顿 ， 可 以 作为 切 分 的 参考 。 


例如 , “全 国信 息 技术 标准 化 委员 会 "这 个 结构 中 的 停顿 情况 
是 : “全 国 .信息 .技术 .标准 化 .委员 会 *， 语 素 之 间 有 停顿 ， 判 定 为 词 
组 ， 切 分 为 “全 国 /信息 /技术 /标准 化 /委员 会 ”。 


GO 双 音节 化 判定 法 


现代 汉语 的 单词 有 双 音 节 化 (disyllabism) 的 倾向 。 双 音节 化 导 
致 音节 之 间 出 现 两 种 相反 的 现象 : 一 种 是 “ 相 吸 ”， 必 一 种 是 “ 相 拒 ”， 
周有光 先生 总 结 了 现代 汉语 双 首 节 化 的 现象 ， 提 出 了 三 条 基本 规 
E: “单单 相 吸 ”, “双双 相 拒 ?,“ 吸 单 拒 双 ”。 


所 谓 “ 单 单 相 吸 ”， 征 指 两 个 单 音节 的 目 由 语素 相 吸 而 连结 成 一 个 
合成 词 ， 不 切 分 。 例 如 , “人 ”和 “ 民 ” 相 吸 而 连结 成 合成 词 * 人 民 ”， 不 
切 分 ;“ 香 ”和 “ 烟 * 相 吸 而 连结 成 合成 词 “香烟 *"， 不 切 分 。 


单 音节 的 区 别 词 和 单 音节 名 词 构成 的 组 合 ， 单 单 相 吸 而 不 切 分 。 
pian, Ho", «Bao, BA” 


单 首 广 代 词 “ 本 、 每 、 各 、 诸 ”后 接 单 首 节 名 词 时 ， 单 单 相 吸 而 不 
Way ° PRN, “AGL”, “BEA”, "fA", “Wate (He, SER 
MS TAY, SHE ROME D n eM 4 23 AP i, FE PO 
FEO HLA] © DIRE, “本 /公司 ”，“ 和 名/ 部门”。 


单 音 玉 名 词 重 玛 式 ， 单 单 相 吸 而 不 切 分 。 例 如 , “AA”, “家 


y 


单 音节 动词 重合 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 走 走 ”",“ 看 


单 首 节 形 容 词 重合 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 红 红 ”，“ 久 


单 音 世 量 词 重 到 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 件 件 ”,，“ 个 
单 音 世 副 词 重 肥 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 销 各 >”，“ 仅 


所 谓 * 双 双 相 拒 *， 是 指 两 组 双 音 节 结 构 往 往 有 相 拒 的 倾向 而 分 写 
为 词组 。 


例如 ,“ 讨 论 " 是 一 个 双 音 节 结构 的 合成 词 ， 它 的 ABAB 型 的 重 和 
形式 是 “讨论 讨论 * 由 两 个 双 音节 结构 组 成 ， 这 两 个 双 音节 结构 彼此 相 
拒 ， 应 分 写 为 词组 ， 分 写 为 "讨论 /讨论 "。 


ME HIE AA ABABA Srl, DOOKIE m Wat A “AB/AB” » 
例如 ， “高 兴 / 高 兴 ” o «3X i /3A mj" o 


We TRA TAN ABABA! SEIS, NOME mI NABAB” 
例如 , SKRR, “雪白 /雪白 ”, “浅黄 /浅黄 ”。 


双 音 节 数 词 的 ABAB 型 重 秦 式 ， 双 双 相 拒 而 切 分 为 “AB/AB”。 例 
如 ,“ 许 多 /许多 ”, “很 多 /很 多 ” 


We TACs AN ABABAY Srl, DOWIE IM Wat A “AB/AB” » 
AT. eme E eT 


(Azz, XOROBEARHSHJAABBAUSZEEXU, HFAAMBBU De 
发 生变 化 ， 算 一 个 切 分 单位 。 例 如 ,“ 勾 勾搭 搭 ?,“ 比 比划 划 *”。 


双 首 方形 容 词 的 AABB 型 重 车 式 ， 由 于 AA 和 BB 切 分 后 意义 发 生 
变化 ， 算 一 个 切 分 单位 。 例 如 ,，“ 高 高 兴 兴 ”，“ 热 热闹 曾 ”。 


双 首 节 名 词 的 AABB 型 重 营 式 ， 由 于 AA 和 BB 切 分 后 意义 发 生变 
化 ， 算 一 个 切 分 单位 。 例 如 ,，“ 山 山水 水 *，“ 方 方面 面 *。 


双 首 数 词 的 AABB 型 重合 式 ， 由 于 AA 和 BB 切 分 后 意义 发 生变 
化 ， 算 一 个 切 分 单位 。 例 如 , “多 多 少 少 ”,“ 许 许多 多 ”。 


所 谓 “ 吸 单 拒 双 ”， 是 指 当 双 音 节 结 构 与 单 音 节 结 构 相 届时 ， 这 个 
双 音 和 结构 能 够 把 单 音节 结构 吸引 过 来 而 形成 合成 词 ， 而 当 双 音节 结 
构 与 必 一 个 双 音 结构 相遇 时 ， 这 个 双 音 万 结构 往往 会 排斥 另 一 个 双 
音节 结构 而 新 形成 词组 。 例 如 , “图 书 征 个 双 音 和 结构 的 合成 词 ， 当 
它 与 单 音节 语素 “ 馆 ? 相 过 时 ， 能 够 把 这 个 单 音 节 语 素 “ 饰 ?吸引 过 来 ， 
形成 < 图 书馆 ?这 个 合成 词 ， 征 一 个 切 分 单位 ; fe, SESS Te 
构 “ 目 录 ” 相 过时 ， 却 排 不 这 个 双 首 节 结 构 ， 而 形成 一 个 词组 “图 书目 
永 ”， 应 分 写 为 “ 独 书 / 目 孙 ”两 个 切 分 单位 。 有时， 三 音节 结构 也 会 把 
它 后 面 的 单 首 节 语 到 吸引 过 来 而 形成 合成 词 ， 也 具有 “ 吸 单 拒 双 ” 的 规 
律 。 例 如 ,“ 天 文学 ”这 个 三 音节 结构 ， 与 单 首 广 语 聚 “ 书 ” 相 过 时 ， 会 
把 这 个 单 音 世 语素 吸引 过 来 而 形成 合成 词 “ 天 文学 书 ”， 是 一 个 切 分 单 
位 ; 而 当 三 音节 词 “ 天 文学 ?后 接 双 音 节 词 “理论 ?时 ， 则 表现 出 排斥 的 
倾 问 ， 应 该 切 分 为 “天 文学 /理论 ”。 如 前 所 述 ， 和 单 音 节 代 词 后 接 名 词 


时 ， 也 表现 出 这 种 “ 吸 单 拒 双 ”的 倾 则 。 所 以 ，“ 吸 单 拒 双 ” 的 倾向 不 仅 
是 双 音 万 词 的 特性 ， 而 且 三 音节 词 和 单 音 节 词 也 表现 出 这 种 “ 吸 单 拒 
双 ” 的 倾 问 。 这 是 汉语 书面 文本 目 动 切 分 在 语音 方面 的 一 个 普遍 规律 。 


这 里 需要 注意 的 是 ， 双 音节 词 “ 吸 单 拒 双 ”中 的 “ 吸 单 ”， 征 指 前 面 
的 双 音 节 词 吸引 它 后 面 的 单 音节 词 ， 是 “前 双 吸 后 单 ” Som 
拒 双 ”中 的 “ 拒 双 ”， 十 指 前 面 的 单 音节 词 拒 绝 后 面 的 双 音节 词 ， 征 “前 
单 拒 后 双 ”。 虽 然 两 着 都 是 双 音 蔬 词 与 单 音节 词 相 过 ， 但 由 于 前 后 位 置 
不 同 ， 吸 引 或 拒绝 的 情况 也 惑 大 不 一 样 。 所 以 我 们 不 能 党 统 地 说 双 音 
万 词 与 单 音节 词 之 间 的 相 吸 或 者 相 斤 ， 而 应 该 注意 它们 前 后 位 置 的 不 
同 对 于 相 吸 相 不 规律 的 影响 。 


这 种 “ 吸 单 拒 双 ”的 倾向 ， 在 地 名 的 切 分 中 也 表现 出 来 。 


当地 名 后 有 “省 、 市 、 县 、 区 、 乡 、 镇 、 村 、 旗 、 州 、 都 、 府 、 
道 ”等 单 音节 的 行政 区 划 名 称 时 ， 马 上 把 单 音节 名 称 吸 过 来 ， 形 成 单独 
的 切 分 单位 。 例 如 , E”, RET”, REAT”, “沙市 
W, "PHI, “EEE”, “WER”, GUNA”, ORS”, BF 
B", "EH", “ERIN”, RARM, KRR, KIUR”, "dE 
海道 ”，“ 长 野 县 "，“ 开 封 府 ”。 


当地 名 后 有 行政 区 划 名 称 为 双 音 节 时 ， 则 排斥 双 音 节 的 名 称 ， 形 
成 两 个 切 分 单位 。 例 如 ,， WRK”, EWK”, “深圳 / 特 
pe", “厦门 /特区 ”,“ 华 盛 顿 /特区 ”。 


当地 名 后 有 表示 地 形 地 貌 的 单 音 市 的 普通 名 词 “ 江 、 河 、 山 、 洋 、 
海 、 岛 、 峰 、 湖 ”时 ， 则 相 吸 而 形成 单独 的 切 分 单位 ， 不 予 切 分 。 例 


MAL”, I, FARE, SENDE, Ht 
海 ",“ 大 西洋 "，" 洞 庭 淹 "，“ 济 州 岛 "。 

当地 名 后 有 表示 地 形 地 貌 的 双 音节 的 普通 名 词 时 ， 则 相 拒 而 成 为 
两 个 切 分 单位 ， 例 如 , “台湾 /海峡 ”, “华北 / 平 原 *,“ 帕 米尔 /高 
E, BRUER, IDAR, “阿尔卑斯 /山脉 "。 


当地 名 后 有 表示 自然 区 划 的 单 音节 的 " 街 ， 路 ， 道 ， 巷 ， 里 ， 町 ， 
庄 ， 村 ， 卉 ， 堡 "等 普通 名 词 时 ， 则 相 吸 而 形成 单独 的 切 分 单位 ， 不 巴 
切 分 。 例 如 , “中 关 村 ”，“ 长 安 街 ",“ 学 院 路 ",“ 景 德 镇，“ 吴 家 
E, RE, IRR, GE, RTE 。 


当地 名 后 有 表示 目 然 区 划 的 双 首 节 普 通 名 词 时 ， 则 相 拒 而 切 分 为 
两 个 切 分 单位 。 例 如 ,，“ 米 市 /大 街 ”，“ 将 家 /胡同 ”， “陶然 之 /公园 ”。 


这 种 “ 吸 单 拒 双 ”的 倾 问 ， 在 民族 名 称 、 语 言 文字 名 称 的 切 分 中 也 
表现 出 来 。 


民族 名 称 后 面 的 单 音节 词 “ 族 ” 一 律 不 切 分 ， 整 个 民族 作为 一 个 切 
分 单位 。 例 如 ，“ 蒙 古 族 "，“ 朝 鲜 族 "，“ 哈 萨 克 族 "，“ 维 吾 尔 族 ”。 但 
是 ， 如 果 后 面 接 双 音节 的 词 “ 民 族 ”， 则 切 分 。 例 如 ， “蒙古 /民族 "，" 朝 
ERU, "pier" 。 


语言 文字 名 称 后 面 的 单 音节 词 * 语 ?和文 ?一律 不 切 分 ， 整 个 语言 
文字 名 称 作 为 一 个 切 分 单位 。 例 如 , “Bene”, “AEB RI”, “斯 拉夫 
i", “AB Sia”, “蒙古 文 ”。 但 是 ， 当 后 面 接 双 音 世 词语 言 "? 和 * 文 
字 ?” 时 ， 则 切 分 为 两 个 单位 。 例 如 , “ 印 欧 / 语 育 ”,“ 吐 火 罗 /文字 ”。 


由 此 可 见 ,“ 双 音节 化 判定 法 ”是 确定 汉语 文本 自动 切 分 的 切 分 单 
位 的 一 个 非常 重要 而 且 行 之 有 效 的 方法 。 这 种 “ 双 音 节 化 ”反映 了 汉语 
HJER (Chinese prosodic system) 的 特征 ， 汉 语 韵 律 的 基本 形式 是 
双 音 节 ， 这 种 双 音 节 ， 就 是 汉语 韵律 的 音 步 (prosodic step) ， 音 步 是 
汉语 韵律 的 单位 ， 也 是 汉语 书面 文本 的 切 分 单位 ， 只 要 满足 音 步 ， 就 
可 以 判定 为 词 。 如 果 某 一 字符 串 等 于 韵律 单位 ， 那 么 ， 该 字符 串 就 被 
韵律 “ 压 ? 成 词 ， 如 果 某 一 字符 串 大 于 韵律 单位 ， 那 么 ， 该 字符 串 就 往 
往 会 被 竟 律 “ 掉 ” 为 词组 。 在 现代 汉语 中 ， 存 在 着 “韵律 压 词 ， 韵 律 指 
语 ”(“ 语 ”就 是 短语 ， 也 就 是 词组 ) 的 规律 。 


我 们 在 前 面 讨论 语法 因素 时 曾经 涉及 “ 双 音 市 化 ”的 规律 对 于 语法 
因素 的 制约 作用 。 看 来 ， 在 确定 切 分 单位 的 各 种 因素 中 ,“ 双 音 市 
化 ”的 前 律 起 着 举足轻重 的 关键 作用 。 前 律 古 我 们 在 确定 切 分 单位 时 首 
先 应 当 奢 虚 的 因素 。 以 前 律 因 素 为 主 ， 辅 之 以 语法 因素 和 语义 因素 ， 
可 能 是 确定 切 分 单位 的 有 效 办 法 。 


当然 ， 确 定 了 韵律 因素 为 主 ， 并 不 意味 着 忽视 其 他 因素 。 事 实 
上 ， 在 汉语 书面 文本 的 目 动 切 分 研究 中 ， 我 们 不 能 只 采用 一 种 方法 来 
确定 切 分 单位 。 比 较 切 合 实际 的 办 法 古 综合 运用 上 述 各 种 方法 来 进行 
判断 ， 各 种 方法 之 间 应 该 相互 补充 ， 相 互 校正 。 


e 确定 切 分 单位 的 其 他 形式 因素 


形式 词 是 理论 词 在 汉语 文本 目 动 切 分 中 的 进一步 拓 广 ， 它 的 外 延 
比 理论 词 更 为 广泛 ， 因 此 ， 除 了 前 面 所 述 的 语言 学 上 的 三 个 形式 因素 
之 外 ， 还 应 该 考虑 以 下 的 形式 因素 。 


中视 读 原 则 


切 分 以 后 的 汉语 书面 文本 是 一 种 视 读 实 体 ， 最 好 应 该 满足 视觉 形 
象 方面 的 要 求 。 


但 是 ， 根 据 认 知心 理学 的 研究 ， 人 对 信息 的 感知 广度 以 7 左右 为 
限 。 我 们 数 蔷 采 ， 五 个 五 个 地 数 比 较 容 易 ， 十 个 十 个 地 数 惑 很 难 。 据 
说 象棋 大 师 对 于 不 成 布局 的 、 阵 势 较 乱 的 棋 副 ， 钥 看 一 下 之 后 ， 至 多 
也 只 能 记 住 7 个 棋子 的 位 置 。 根 据 这 样 的 原理 ， 切 分 出 来 的 形式 词 中 所 
侣 的 汉字 数目 以 不 多 于 7 个 为 佳 ， 要 尽量 使 汉字 数目 超过 7 个 的 形式 词 
不 要 太 多 。 例 如 , “同步 稳 相 回旋 加 速 部 ”含有 9 个 汉字 ， 如 采 连 写 为 一 
串 长 龙 不 便 阅 读 ， 根 据 视 读 原则 ， 可 切 分 为 “同步 / 稳 相 /回旋 /加 速 右 ”4 
个 形式 词 。 


一 些 长 的 地 名 和 机 构 名 如 果 不 切 分 也 不 便于 视 读 ， 应 该 切 分 。 例 
如 ,“ 河 北 省 /正定 县 /西平 乐 乡 / 南 化 村 ”,“ 云 南 省 /昆明 市 /五 华 区 /大 观 
街 "，“ 教 育 部 /语言 文字 /应 用 /研究 所 /计算 /语言 学 /研究 室 "。 


新 闻 报 道中 的 活动 名 称 不 宜 太 长 ， 对 于 那些 太 长 的 活动 名 称 ， 也 
应 该 切 分 开 来 ， 以 便 视 读 。 例 如 ,“ 庆 /回归 /公益 / 千 万 / 行 ”>,，“ 第 三 /次 / 
横 田 /基地 /噪音 /诉讼 ”。 


“者 ”是 名 词 的 后 级 ， 属 于 荞 附 语素 ， 根 据 “ 笑 附 性 测定 法 ”"， 后 
级 “者 ”前 面 的 部 分 不 应 该 与 “者 ” 切 分 。 但 是 ， 有 时 “者 ”前面 的 部 分 很 
长 ， 连 成 长 龙 不 便于 视 读 ， 也 应 该 切 分 。 例 如 , “经 过 / 苦 苦 /追求 /而 / 
获得 / 笠 福 /者 ”, “不 / 顾 / 劝 告 /而 /执意 /闹事 /者 ”, “多 /次 /判刑 /而 / 屡 教 不 
BUA” ° 


GPE, [T WP RA. TRIS Abb TEM EIA”, BRE a 
面 的 部 分 不 应 该 与 “ 非 ” 切 分 。 但 是 ， 有 了 时“ 非 ”后 面 管辖 的 范围 太 长 ， 


连 成 长 龙 不 便 视 读 ， 也 应 该 切 分 。 例 如 ,“ 非 /本 市 / 广 册 /车 辆 ”。 


认 知 心理 学 的 研究 证 明 ， 形 式 词 的 汉字 序列 中 首尾 两 头 的 汉字 比 
较 容 易 辨认 。 个 别 的 一 些 长 词 ， 如 果 我 们 看 一 看 它们 的 两 头 ， 再 加 上 
前 后 文 的 提示 ， 则 中 间 的 汉字 不 必 细 看 也 可 以 辨别 出 这 个 词 来 。 根 据 
这 样 的 原理 ， 在 目 动 切 分 时 ， 可 以 把 多 音 蔬 后缀 “一 主义 ”\“ 一 主义 
者 ” 同 前 面 的 汉字 连 写 ， 反 而 比分 写 容易 辨认 。 例 如 , "LET 
义 者 ”。 当然， 这 样 的 长 词 不 宜 过 多 ， 长 词 的 数目 要 加 以 严格 的 控制 。 
如 果 长 词 数目 太 多 ， 其 可 辨识 性 束 会 随 长 词 数目 的 增加 而 降低 。 


在 确定 形式 词 的 时 候 ， 我 们 应 该 考虑 到 这 些 视 读 方面 的 原则 。 
(多 元 化 原则 


从 汉语 书面 文本 自动 切 分 的 实际 情况 来 看 ， 切 分 单位 不 仅仅 是 上 
述 的 词 ， 还 可 能 是 比 词 更 大 的 单位 〈 如 成 语 、 习 惯用 语 ) ， 也 可 以 是 
比 词 更 小 的 单位 〈 如 黏附 语素 和 非 语素 字 ) ， 所 以 ， 本 文中 所 说 的 形 
式 词 除了 一 般 意 义 上 的 词 之 外 ， 还 包括 比 词 更 大 以 及 比 词 更 小 的 音 
位 。 形 式 词 也 就 是 切 分 单位 。 


作为 切 分 单位 的 成 语 和 习惯 用 语 有 如 前 述 。 


ERM ERER FE DAZU) 4T Rr. ° 


某 些 离合 词 (R, BAAS, DUK. FEA, H3") 在 实际 文本 中 
可 能 分 离 出 忒 附 语 窗 ， 这 时 ， 这 些 分 离 出 来 的 医 附 语素 就 成 为 了 切 分 
单位 。 例 如 ， 


洗 / 了 /一 /次 / 课 
鞠 / 了 /一 /个 / 躬 


游 / 了 /一 /次 / 泳 
出 /了 /一 /次 / 差 


EPIR > BE > AS > ok > er abe eA, PAT, ENRERE 
在 的 切 分 单位 ， 也 就 是 我 们 的 形式 词 。 


某 些 非 语 素 字 也 可 以 成 为 切 词 单位 。 例 如 ， 


葡萄 /的 / 葡 / 字 /怎么 / 写 /? 
PETSA BMT AE RAMS /? 


PAA AIRS ER ete, Ellexaem CWAFIBAS, AN, 
它们 都 可 能 成 为 切 分 单位 。 


标点 符号 也 应 该 是 切 分 单位 ， 从 这 个 意义 上 说 ， 标 点 符号 也 是 一 
种 特殊 的 形式 词 ， 在 目 然 语言 处 理 中 ， 标 点 符号 的 处 理 是 一 个 很 重要 
的 问题 。 


科学 技术 文章 中 的 公式 和 符号 ， 也 应 该 是 切 分 单位 ， 也 可 以 看 成 
一 种 特殊 的 形式 词 。 


由 此 可 见 ， 我 们 对 于 形式 词 的 理解 应 该 是 多 元 化 的 ， 形 式 词 不 仅 
仅 是 词 ， 还 可 以 古 成 语 、 人 局 用 语 、 医 附 语素 、 非 语素 字 ， 甚 至 还 可 以 
征 标 点 符号 、 公 式 或 其 他 符号 、 数 字 串 、 外 文字 母 串 ， 等 等 。 我 们 应 
该 导 从 多 元 化 的 原则 ， 对 于 形式 词 作 广义 的 理解 。 从 中 文 信息 处 理 的 
实际 需要 来 看 ， 我 们 完全 有 必要 在 目 动 切 分 中 把 “理论 词 ” 的 概念 加 以 
扩展 ， 引 入 “形式 词 * 的 概念 。 


国家 标准 GB13715《 信 息 处 理 用 现代 汉语 分 词 规范 》 中 ， 给 “分 词 
单位 ”下 的 定义 是 : “汉语 信息 处 理 使 用 的 、 具 有 确定 的 语义 或 语法 功 


能 的 基本 单位 ”。 我 们 在 本 文中 提出 的 “形式 词 ?的 外 延 比 这 个 定义 所 办 
说 的 “分 词 单位 ?要 广泛 一 些 ， 这 个 “形式 词 ? 的 概念 更 加 适合 于 中 文 信 
轧 处 理 的 需要 。 


人) 领域 针对 性 原则 


我 们 还 可 以 根据 中 文 信息 处 理 其 他 领域 的 实际 需要 ， 把 形式 词 的 
概念 引入 机 凑 翻 译 、 信 息 检 索 、 信 息 抽 取 、 文 本 数据 挖 握 、 目 动 分 
类 、 目 动 文 摘 、 语 音 识别 等 领域 ， 针 对 不 同 领域 的 实际 需要 ， 建 立 不 
同 领域 的 形式 词 系统 ， 以 弥补 语言 学 中 由 于 “理论 词 ? 在 理论 方面 的 缺 
陷 而 引起 的 各 种 困难 和 矛盾 。 


例如 ， 在 汉语 翻译 成 外 语 的 机 器 翻译 中 ， 词 组 型 的 科学 技术 术语 
最 好 不 要 切 分 ， 可 以 整个 地 翻译 为 相应 的 外 语 术 语 ， 这 样 可 以 减轻 汉 
语 分 析 的 负担 。 例 如 ， 地 理学 术语 “沙漠 卵石 禾 盖 层 "”， 可 以 直接 翻译 
Jj 1 WY “desert pavement”， 如 果 切 分 开 来 翻译 ， 译 文 可 能 会 不 知 所 
云 。 在 信息 检索 中 ， 这 样 的 长 术语 也 最 好 不 要 切 分 ， 以 提高 检索 系统 
的 得 准 率 。 但 是 ， 如 果 在 研究 汉语 科技 术语 结构 的 术语 数据 库 中 ， 为 
了 表示 科技 术语 的 结构 ， 就 有 必要 加 以 切 分 。 不 同 的 领域 对 于 切 分 的 
要 求 是 有 差别 的 ， 我 们 有 必要 针对 不 同 的 领域 建立 不 同 的 形式 词 系 
统 ， 以 满足 不 同 领 域 的 不 同 要 求 。 


显而易见 ， 针 对 不 同 领域 的 形式 词 系统 应 该 既 有 “大 同 ”， 又 有 ”人 小 
异 ”。 “大同 ”反映 了 不 同 领 域 的 形式 词 的 共性 , “小 异 ” 有 反映 了 不 同 领 域 
形式 词 的 特性 ， 我 们 应 该 把 共性 和 个 性 结合 起 来 ， 建 立 自 然 语 言 处 理 
中 "形式 词 ” 的 新 概念 。 


形式 词 研 究 古 目 然 语言 处 理 理论 建设 的 一 项 基础 工作 ， 布 望 引起 
学 术 界 的 进一步 讨论 ， 我 们 在 本 书 中 的 讨论 仪 只 古 抛 砖 引 玉 而 已 。 


第 五 六 ”文本 的 目 动 标注 


汉语 书面 语 的 文本 在 目 动 切 分 之 后 ， 词 与 词 之 间 出 现 了 空白 ， 我 
们 就 有 可 能 像 处 理 英 文 、 法 文 、 德 文 那 样 ， 进 一 步 分 析 每 个 词 的 词类 
和 语义 特征 ， 并 给 每 一 个 词 目 动 地 标注 上 有 关 的 信息 。 


文本 目 动 标注 包括 两 方面 的 内 容 ， 目 动词 性 标注 和 目 动 语义 标 
it 


首先 谈 目 动词 性 标注 。 


所 谓 自动 词性 标注 (automatic Part-of-Speech tagging, automatic 
POS tagging) 可 人 简称 为 标注 (tagging) ， 这 是 给 语料库 中 的 每 一 个 单 
词 指派 一 个 词类 或 者 词汇 类 别 标记 的 过 程 。 这 些 标记 通常 也 用 来 标注 
标点 符号 ; 因此 ， 目 然 语言 的 标注 过 程 与 计算 机 语言 的 词 例 还 原 

(tokenization) 过 程 是 一 样 的 ， 尽 管 自 然 语言 的 标记 具有 更 多 的 歧义 
性 。 词 性 标注 不 但 是 机 需 翻 译 形态 分 析 的 重要 组 成 部 分 ， 而 且 它 在 语 
音 识别 和 信息 检索 中 都 起 痢 越 来 越 重 要 的 作用 。 


在 英语 、 汉 语 等 目 然 语言 中 ， 都 存在 着 大 量 的 词 的 兼 类 现象 ， 这 
给 文本 的 目 动词 性 标注 帝 来 了 很 大 的 困难 。 因 此 ， 如 何 排除 兼 类 词 的 
攻 义 ， 有 征文 本 目 动词 性 标注 研究 的 关键 问题 。 


早 在 20 世 纪 60 年 代 ， 国 外 学 者 束 开 始 研究 英语 文本 的 目 动词 类 标 
注 问 题 ， 提 出 了 一 些 消除 兼 类 词 上 收 义 的 方法 ， 建 立 了 一 些 目 动词 性 标 


TERS ° 


通行 的 英语 标记 集 (tagset) 有 儿 种 ， 多 数 都 症 从 布衣 语料库 
(Brown Corpus) 中 所 使 用 的 包含 87 个 标记 的 标记 集 演 化 发 展 而 来 
的 。 英 语 中 最 常用 的 标记 集 有 三 个 : 


e 第 一 个 为 宾 州 树 库 (Penn Treebank) 标记 集 ， 包 含 45 个 标记 ， 
是 小 标记 集 ; 


e 第 二 个 为 兰 卡 斯 特大 学 (Lancaster University) UCREL 计 划 的 成 
分 似 然 性 自动 词性 标注 系统 CLAWS (the Constituent Likelihood 
Automatic Word-tagging System, ) 使 用 的 标记 集 C5， 包 含 61 个 标记 ， 
是 中 型 的 标记 集 ，C5 标 记 集 用 于 标注 英 家 语料库 (the British 
National Corpus， 人 简称 BNC) ; 


e 第 三 个 标记 和 集 是 包含 146 个 标记 的 大 型 标记 集 C7。 


这 里 我 们 介绍 它们 当中 最 小 的 一 个 标记 集 ， 即 Penn Treebank 的 标 
记 集 ， 然 后 讨论 从 其 他 标记 集 来 的 一 些 特殊 的 附加 标记 。 


标记 
CC 
CD 
DT 
EX 
FW 
IN 

JJ 
JJR 
JJS 
LS 
MD 
NN 
NNS 
NNP 
NNP 
PDT 
POS 
PP 
PP $ 
RB 
RBR 
RBS 
RP 
SYM 
TO 
UH 


aX 
Coordin. Conjunction 
Cardinal number 
Determiner 
Existential ‘there’ 
Foreign Word 
Preposition/sub-conj 
Adjectivev 

Adj. , comparative 
Adj. , superlative 
List item marker 
Modal 

Noun, sing, or mass 
Noun, plural 

Proper noun, singular 
SProper noun, plural 
Predetermine 
possessive ending 
Personal pronoun 
Possessive pronoun 
Adverb 

Adverb, comparative 
Adverb, superlative 
Particle 


Symbol 


Interjection 


例子 

and, but, or 
one, two, three 
a, the 

there 

mea culpa( 我 的 过 失 ) 
of, in, by 
yellow 

bigger 

biggest 

1, 2, one 

can, should 
llama 

llamas 

IBM 

Carolinas 


all, both 

洛 

I, you, he 
your, one’s 
quickly, never 
faster 

fastest 

up, off 
+,%,& 

to 


ah, oops 


VB Verb, base form eat 


VBD Verb past tense ate 

VBG Verb, gerund eating 

VBN Verb, past participle eaten 
VBP Verb, non-3sg pres eat 

VBZ Verb, 3sg pres eats 

WDT Wh-determiner which, that 

WP Wh-pronounv whose 
WP $ Possessive wh- whose 
WRB Wh-adverb how, where 
$ Dollar sign $ 

# Pound sign # 

Left quote (“或 “) 

Right quote (ax n) 

( Left parenthesis CE ut yas 22 
) Right parenthesis Oly Da TEC 
5 Comma ; 

Sentence-final punc 人 T) 
Mid-sentence punc Ua got =) 


这 个 Penn Treebank 标 记 集 应 用 于 布朗 语料库 和 一 些 其 他 的 语 料 
库 。 这 里 是 布朗 语料库 的 Penn Treebank 版 本 中 的 一 个 标注 了 的 句子 的 
fil: 


待 标注 的 句子 是 : 
The grand jury commented on a number of other topics. 


标注 后 的 句子 中 ， 每 一 个 单词 和 标点 符号 的 后 面 都 加 上 了 词类 标 
ii: 


The/DT grand/JJ jury/NN commented/VBD onIN a/DT 
number/NN of/IN otherJJ topics/NNS ./. 


这 是 一 个 展开 的 ASCII 文 件 ， 标 记 通 常 标 在 每 一 个 单词 之 后 ， 中 
间 用 和 斜 线 隔 开 ， 不 过 标记 也 可 以 用 其 他 方式 来 表示 。 


Penn Treebank 的 标记 集 是 从 布朗 语料库 原 有 的 87 个 标记 的 标记 集 
中 挑选 出 来 的 。 这 个 小 标记 集 去 掉 的 标记 主要 是 那些 表示 单词 条 目 本 
和 喘 可 以 包含 的 信息 的 标记 。 例 如 ， 在 原来 的 布朗 语料库 的 标记 集 以 及 
像 C5 这 样 的 其 他 比较 大 的 标记 和 集中， 对 于 动词 do，be 和 have 的 不 同形 
式 都 有 不 同 的 标记 (例如 ，C5 中 用 VDD 表 示 did， 用 VDG 表 示 
doing) ， 而 这 样 的 标记 ，Penn Treebank 的 标记 集中 都 略 去 了 e 


在 Penn Treebank 的 标记 集中 ， 有 些 句法 的 区 别 没 有 表示 出 来 ， 
为 树 库 中 的 句子 都 是 谢 析 过 的 ， 而 不 仅仅 只 是 做 了 标记 ， 所 以 ， 某 些 
句法 信息 已 经 在 短语 结构 中 表示 出 来 了 。 例 如 ， 介 词 和 从 属 连接 词 结 
合 为 一 个 单独 的 标记 IN， 这 是 因为 在 句子 的 树 结构 中 ， 它 们 之 间 的 歧 
义 已 经 消解 了 (从 属 连 接 词 总 是 位 于 分 句 之 前 ， 而 介词 总 是 位 于 名 词 
短语 之 前 或 处 于 介词 短语 之 中 ) 。 


但 是 ， 在 大 多 数 进 行 标注 的 场合 ， 并 不 要 求 对 语料库 进行 剖析 ， 
正 是 由 于 这 个 原因 ，Penn Treebank 的 标记 集 在 很 多 应 用 中 就 显得 不 够 
用 了 。 例 如 ，C7 标 记 集中 就 区 分 介词 QD 和 从 属 连接 词 (CS) ,并 
且 还 区 分 介词 QD 和 动词 不 定式 的 标志 (TO) ° 


对 于 特定 的 应 用 目的 来 说 ， 使 用 什么 样 的 标记 集 取决 于 应 用 中 和 需 
要 信息 的 多 少 。 


为 了 便于 一 般 读 者 阅读 ， 我 们 在 本 书 中 采用 的 标记 主要 遵从 我 国 
自然 语言 处 理学 界 的 习惯 用 法 ， 与 Penn Treebank 的 标记 不 完全 相同 。 


标注 算法 的 输入 是 单词 的 符号 串 和 词类 标记 集 (tagse) 。 算 法 的 
输出 要 让 每 一 个 单词 都 标 上 一 个 单独 的 而 且 是 最 佳 的 标记 。 例 如 ， 这 
里 是 ATIS 语 料 库 中 的 一 些 样 本 句子 ，ATIS 语 料 库 是 一 个 天 于 航空 旅行 
订 票 对 话 的 语料库 。 对 于 每 一 个 单词 ， 我 们 给 出 了 一 个 潜在 的 标记 输 
出 ， 标 记 集 采用 我 们 前 面 定义 的 Penn Treebank 标 记 集 : 


Book/VB that/DT flight/NN ./. 
Does/VBZ that/DT flight/NN serve/VB dinner/NN?/? 


REZE ERI, (eA Hae eS 
派 一 个 标记 也 并 不 是 很 容易 的 事 。 例 如 ，book 这 个 单词 瓯 是 有 此 义 的 
(ambiguous) ， 也 就 是 说 ，book 有 一 个 以 上 的 用 法 和 一 个 以 上 的 词 
类 。book 可 以 是 动词 (例如 ，book that flight |[ 订 那 种 飞机 票 | 或 book 
the suspect | 控告 嫌疑 人 | ) ， 也 可 以 是 名 词 (例如 ，hand me that 
book [把 那 本 书 交 给 我 」 或 a book of matches | 一 本 关于 比赛 的 
Bl ) 。 类 似 地 ，that 可 以 是 限定 词 (例如 ，Does that flight serve 
dinner | 这 个 航班 供应 晚餐 吗 | ) ， 也 可 以 是 标 补 语 (例如 ，I thought 
that your flight was earlier [我 认为 ， 你 的 飞机 早 一 些 | ) 。 词 类 标注 
的 问题 融 是 消解 这 样 的 上 改 义 ， 在 一 定 的 上 下 文中 选择 恰如其分 的 标 
记 。 


词类 标注 的 难度 究竟 有 多 大 昵 ? 英语 中 的 大 多 数 单词 都 是 没有 层 
义 的 ， 也 吏 是 说 ， 这 些 单词 只 有 一 个 单独 的 标记 。 但 是 秽语 中 的 最 常 
用 的 单词 很 多 都 是 有 歧义 的 。 例 如 ，can 可 以 是 助动词 (表示 “能 
i” [tobe able] ) ， 也 可 以 是 名 词 (ARL? [a metal 


container] ) ， 也 可 以 是 动词 (em GEE TR GEEK” [to put 
something in such a mental container] ) 。 事 实 上 ， 德 罗斯 (S.J. 
DeRose) 在 1988 年 报告 说 ， 在 布朗 语料库 中 ， 只 有 11.5% 的 英语 词 型 

(word type) 是 歧义 的 ，40% 以 上 的 词 例 (word token) 是 疏 义 的 。 根 
据 弗 兰 西 斯 (Francis) PÆ (Kucera) 1982 年 的 研究 结果 ， 德 罗 
斯 在 1988 年 给 出 了 如 下 的 标记 尼 义 表 : 


Jo XC 只 有 1 个 标记 ) 35 340 
歧义 ( 有 2 一 7 个 标记 ) 4 100 
2 个 标记 3 700 
3 个 标记 264 
4 个 标记 61 
5 个 标记 12 
6 个 标记 2 
7 个 标记 1 ( “still” ) 


图 3.28 在 布朗 语料库 中 按 歧 义 程 度 排列 的 词 型 (word type) 数目 


邓 运 的 是 ， 在 占 40% 的 歧义 词 例 《word token) 中 ， 有 不 少 是 很 容 
易 消解 收 义 的 。 这 是 因为 跟 一 个 单词 相关 联 的 不 同 的 标记 的 使 用 情况 
并 不 是 完全 等 同 的 。 例 如 ，a 可 以 是 一 个 限定 词 ， mx H]DAZEG Ba 

(作为 首 字 母 缩 写 词 的 一 部 分 ， 或 者 处 于 开头 ) ， 但 是 ，a 作 为 限定 词 
意思 更 加 常见 。 


大 多 数 的 标注 算法 可 以 归纳 为 两 类 : 一 类 是 基于 规则 的 标注 算法 
(rule-based tagger) ， 一 类 是 基于 统计 的 标注 算法 (statistic-based 
tagger) 


基于 规则 的 标注 算法 一 般 部 包括 一 个 手工 制作 的 歧义 消解 规则 的 
数据 库 ， 这 些 规则 要 说 明 歧 义 消解 的 条 件 。 例 如 ， 当 一 个 卜 义 单词 的 
前 面 是 限定 词 时 ， 束 可 以 判断 它 是 名 词 ， 而 不 是 动词 。 


基于 统计 的 标注 算法 在 解决 标注 此 义 问 题 时 ， 一 般 都 使 用 一 个 训 
练 语料库 ， 来 计算 在 给 定 的 上 下 文中 ， 某 一 给 定单 词 具有 某 一 给 定 标 
记 的 概率 。 一 些 基 于 统计 的 标注 系统 是 建立 在 隐 马 尔 可 夫 模 型 
(Hidden Markov Model) 的 基础 上 的 ， 可 以 叫做 HMM 标 注 系统 ， 
叫做 最 大 似 然 度 标注 系统 ， 或 马尔 可 夫 模 型 标注 系统 。 


最 后 ， 还 有 一 种 叫做 基于 转换 的 标注 算法 (transformation-based 
tagger) ， 这 种 算法 是 微软 公司 的 布 里 尔 (Eric Brill) 在 1995 年 提出 
的 ， 也 叫做 布 里 尔 标注 算法 (Brill tagger) 。 布 里 尔 标注 算法 具有 上 
述 两 种 标注 算法 的 特点 。 与 基于 规则 的 标注 算法 相似 ， 这 种 算法 要 根 
据 规则 来 决定 一 个 有 歧义 的 单词 应 该 具有 什么 样 的 标记 。 与 基于 统计 
的 标注 算法 相似 ， 这 种 算法 有 一 个 部 分 是 用 于 机 器 学 习 的 ， 规 则 可 以 
由 前 面 已 经 标注 好 的 训练 语料库 中 目 动 地 推导 出 来 。 


基于 规则 的 词性 标注 主要 是 根据 语言 学 规则 对 于 兼 类 词 进行 排 
I, DETERS TA PBC EE A BL: 


e 基于 形态 的 排 收 方法 : 英语 中 各 类 词 的 形态 变化 不 尽 相 同 ， 因 
此 ， 对 于 发 生 了 形态 变化 的 兼 类 词 ， 我 们 可 以 通过 它们 的 形态 变化 方 
式 来 判定 它们 所 属 的 词类 。 例 如 ，book 是 一 个 动词 一 名 词 兼 类 词 ， 但 
是 ， 在 I have booked a room 中 ， 由 于 booked 采 取 了 过 去 分 词 的 变化 形 
式 ， 作 为 名 词 的 book 不 可 能 有 这 样 的 形式 ， 所 以 ， 我 们 可 以 判定 这 个 
booked 是 动词 ， 它 的 词义 不 是 “ 书 ”， 而 是 “预定 ”。 这 种 基于 形态 的 排 
歧 方 法 ， 基 本 上 用 不 着 考虑 上 下 文 ， 判 定 起 来 直接 而 迅速 。 


e 基于 上 下 文 环境 的 排 歧 方法 : 词 的 上 下 文 就 是 词 的 分 布 
(distribution) ， 词 的 分 布 是 一 种 广义 的 形态 ， 它 反映 了 词 的 句法 功 
能 。 


例如 ， 英 语 名 词 的 前 面 可 以 出 现 数 词 、 形 容 词 、 限 定 词 ， 根 据 这 
样 的 分 布 环 境 ， 我 们 就 可 以 判定 动词 名词 兼 类 词 是 名 词 。 


英语 形容 词 的 前 面 可 以 出 现 副词 ， 而 名 词 前 面 不 能 出 现 副词 ， 根 
据 这 样 的 分 布 环境 ， 我 们 就 可 以 判定 形容 词 一 名 词 兼 类 词 是 形容 词 。 


英语 动词 的 前 面 可 以 出 现 助 动词 ， 根 据 这 样 的 分 布 环境 ， 我 们 整 
可 以 判定 助动词 后 面 的 动词 一 名 词 兼 类 词 是 动词 。 


在 上 下 文 环境 “X + and + AD 也 中， 如果 X 是 一 个 动词 一 形容 词 兼 
类 词 ， 由 于 与 它 并 列 地 连接 的 词 是 形容 词 ADJ， 因 此 ， 可 以 判定 又 也 


是 形容 词 。 


e 基于 语义 的 排 歧 方法 : 词 的 语义 搭配 关系 存在 着 一 定 的 优先 天 
系 。 例 如 ， 动 词 buy (3E) 之 后 的 宾语 一 般 为 事物 (thing) ， 因 此 ， 
名 词 应 该 优先 ， 具 体 地 说 ， 如 果 buy 后 面 是 动词 一 名 词 兼 类 词 book， 而 
book 是 名 词 时 它 在 词典 中 的 定义 是 “a collection of sheets of paper 
fastened together as a thing to be read”， 那 么 ，book 是 名 词 的 可 能 性 远 
远大 于 是 动词 的 可 能 性 ， 我 们 可 以 判定 它 是 名 词 。 


1971 年 ， 美 国 布朗 大 学 的 格林 讷 (Greene) ME (Rubin) 建立 
了 TAGGIT 系 统 ， 采 用 了 86 个 词类 标记 ， 利 用 了 3300 条 上 下 文 框架 规 
则 (context frame rules) 来 排除 兼 类 词 收 义 ， 上 自动 标注 正确 率 达 到 
77%。1983 年 ， 玛 沙 尔 (Mashal) 、 里 奇 (G. Leech) 和 加 塞 德 (R. 
Garside) 等 人 建立 了 CLAWS 系 统 ， 用 概率 统计 的 方法 来 进行 自动 词性 


标注 ， 他 们 使 用 了 133x133 的 词类 共 现 概率 和 矩阵， 通过 统计 模型 来 消 
除 兼 类 词 疏 义 ， 自 动 标注 的 正确 率 达 到 了 96%。1988 年 ， 德 洛斯 (S.J. 
DeRose) 对 CLAWS 系 统 作 了 一 些 改进 ， 利 用 线性 规划 的 方法 来 降低 
系统 的 复杂 性 ， 提 出 了 VOLSUNGA 算 法 ， 大 大 地 提高 了 处 理 效率 ， 使 
自动 词性 标注 的 正确 率 达 到 了 实用 的 水 平 。 


汉语 的 目 动词 性 标注 的 研究 起 步 较 晚 。 近 年 来 ， 清 华 大 学 、 山 西 
大 学 、 北 京 大 学 在 这 方面 作 了 大 量 的 研究 ， 取 得 了 民 好 的 成 绩 。 


目 动词 类 标注 的 关键 是 排除 兼 类 词 歧 义 。 这 个 问题 ， 同 时 也 是 汉 
语 人 研究 的 难点 之 一 。 在 这 一 节 中 ， 我 们 根据 有 关 文 献 ， 将 这 方面 的 人 研 
完 作 一 概括 性 的 综述 。 


一 般 地 说 ， 现 代 汉 语 的 词 可 分 为 15 类 : 名 词 、 时 间 词 、 方 位 词 、 
数 词 、 量 词 《包括 名 量词 和 动量 词 ) 、 人 代词、 区 别 词 、 动 词 、 赵 向 动 
词 、 能 愿 动词 、 形 容 词 、 副 词 、 介 词 、 连 词 、 助 词 (包括 结构 助词 、 
动态 助词 、 语 气 助词 ) 。 


据 东 北 工学 院 姚 天 顺 统计 ， 汉 语 中 各 种 兼 类 现象 有 37 种 ， 山 西 大 
学 全 玮 统计 ，《 现 代 汉 语 八 百 词 》 一 书 所 收 的 800 多 个 词 中 ，22.5% 的 
词 有 兼 类 现象 ， 约 50 多 种 类 型 。 


消 华 大 学 黄 昌 宁 等 根据 《中 学 生词 典 》14 000 个 词 条 的 统计 ， 共 
有 27 种 兼 类 现象 。 我 们 下 面 列 出 这 27 种 兼 类 现象 的 词 条 数 以 及 它们 在 
羔 类 现象 中 所 占 的 比例 。 


(1) “ 动 一 名 * 兼 类 : 408 个 ， 占 49.8%。 
(2)“ 动 一 形 * 兼 类 : 167 个 ， 占 20.4%。 


HK: 
JIPA: 
«sh Rates. 
E BR: 
“Ell EPH: 
RAPRA: 
RRR: 


“ 动 一 连 " 兼 类 : 
"JE ee. 
“ 数 一 副 " 兼 类 : 
dk nen 
“ 动 一 代 " 兼 类 : 
"Ere. 


1284, 


324]. 
18^", 


16^", 


1^" 


“ 动 一 趋向 (动词 ) * 兼 类 : 1 个 


15.6% » 
73.9% ° 
2.2% » 


72.0% ° 


, 40.60% ° 
, 40.37% » 


, 0.24% ° 


40.24% ° 


, 0.24% ° 


40.24% ° 
40.24% ° 


40.12% ° 


, 180.1296 ° 


«5j 43825. 17, 40.12% ° 
“名 一 形 一 动 * 兼 类 : 137^, 41.6% ° 
“名 一 形 一 副 * 兼 类 : 5 个 ， 占 0.60%。 


, 0.12% » 


(20) “ 动 一 副 一 名 ” 兼 类 : 3 个 ， 占 0.37% © 
(21) “ 动 一 形 一 副 ?” 莱 类 : 2 个 ， 占 0.24%。 
(22) “ 形 一 名 一 量 ” 兼 类 : 1^, 40.12% ° 
(23)“ 动 一 介 一 副 * 兼 类 :1 个 ， 占 0.12%。 
(24)“ 名 一 动 一 介 ” 兼 类 :1 个 ， 占 0.12%。 
(25)“ 名 一 连 一 副 * 兼 类 :1 个 ， 占 0.12% ° 


(26)“ 动 一 连 一 名 ” 兼 类 : 1 个 ， 占 0.12%。 


(27)“ 动 一 连 一 形 * 兼 类 :; 1 个 ， 占 0.12%。 


14 000 个 词 条 中 ， 兼 类 词 条 共 800 个 ， 占 总 词 条 数 的 5.86%。 


清华 大 学 黄 昌 宁 等 还 统计 了 《 兼 类 词 选 释 》 图 所 收 的 396 个 兼 类 
词 ， 共 33 种 兼 类 现象 。 前 8 种 兼 类 现象 古 : 


(1) “ 动 一 名 ” 兼 类 : 146 个 ， 占 37.6%。 
(2) “ 动 一 形 ” 兼 类 : 96 个 ， 占 24.3%。 
(3) “名 一 形 ” 兼 类 : 41^, 410.4% © 
(4)“ 形 一 副 ” 兼 类 : 18 个 ， 占 4.55%。 
(5) “ 动 一 介 ” 兼 类 : 16 个 ， 占 4.04%。 


(6)“ 动 一 副 * 兼 类 : 95, 42.27% ° 


(7) “Fear RR: 95, 42.27% © 
(8)“ 名 一 副 * 兼 类 : 8^, [52.0296 » 


前 8 种 兼 类 现象 共有 兼 类 词 346 个 ， 占 该 书 所 收 兼 类 词 总 数 的 
87.45% ° 


由 于 收 词 原 则 不 同 ， 词 的 分 类 标准 不 同 ， 上 述 的 统计 并 不 是 完全 
的 、 精 确 的 ， 它 们 仅仅 反映 了 汉语 兼 类 现象 的 大 致 情况 ， 实 际 情况 恐 
人 要 复杂 得 多 。 但 是 ， 从 上 述 统 计 中 我 们 至 少 可 以 看 出 如 下 的 一 些 规 
律 。 


(1) 兼 类 词 只 占 汉 语词 汇 的 很 小 一 部 分 。 《现代 汉语 八 百 词 》 只 
收 了 一 些 最 常用 的 词 ， 因 而 兼 类 词 所 占 的 比例 高 达 22.5%. 但 是 ， 如 果 
扩大 词汇 容量 ， 这 个 比例 将 会 大 大 下 降 。《 中 学 生词 典 》 收 词 14 000 
条 ， 兼 类 词 所 占 的 比例 仅 为 5.86%。 词 典 收 词 越 多 ， 兼 类 词 的 比例 还 
要 下 降 。 所 以 ， 从 汉语 词汇 的 忌 体 来 考虑 ， 兼 类 词 所 占 的 比例 有 古 不 大 
HY ° 


(2) 常用 词 兼 类 现象 严重 。 往 往 越 是 常用 的 词 ， 不 同 的 用 法 就 越 
多 ， 兼 类 现象 也 号 越 多 。 所 以 ， 尽 管 兼 类 现象 只 占 了 汉语 词汇 的 很 小 
一 部 分 ， 但 兼 类 词 使 用 的 频 渗 程 度 并 不 很 低 。 


(3) 兼 类 现象 纷 系 ， 履 盖 面 很 广 ， 涉 及 了 汉语 中 的 大 部 分 词类 。 


(4) 兼 类 现象 的 分 布 很 不 一 致 。《 中 学 生词 典 》 中 含 10 个 词 条 以 
上 的 兼 类 现象 只 有 7 种 :“ 动 一 名 ” 兼 类 、“ 动 一 形 * 兼 类 、“ 名 一 形 * 兼 
类 、“ 形 一 副 * 兼 类 、“ 动 一 副 ” 兼 类 、“ 名 一 副 * 兼 类 、“ 名 一 形 一 动 ” 兼 
类 ， 但 是 它们 却 占 了 820 个 兼 类 词 的 95.5%。《 兼 类 词 选 释 》 中 的 前 8 


种 兼 类 词 占 了 396 个 兼 类 词 的 87.459%6。 在 各 种 兼 类 现象 中 , “名 一 动 ” 莱 
类 现象 最 为 普遍， 在 《中 学 生词 典 》 中 占 兼 类 词 总 数 的 49.8%， 在 

《 兼 类 词 选 释 》 中 占 了 兼 类 词 总 数 的 37.6%， 而 有 些 兼 类 现象 ， 如 " 动 
一 介 ” 莱 类、“ 动 一 代 ” 兼 类 ， 包 含 的 词 条 数 寥寥 无 几 ， 所 占 的 比例 微 平 
其 做。 


上 面 情况 说 明 ， 不 同 的 词类 在 兼 类 问题 中 的 地 位 不 是 等 同 的 。 有 
些 词 类 ， 兼 类 现象 关 重 ， 解 决 其 兼 类 问题 比较 困难 ， 而 这 些 困难 的 兼 
类 问题 ， 愉 恰 是 兼 类 现象 中 最 基本 的 问题 ， 可 以 把 这 些 词类 ， 叫 做 “ 基 
本 兼 类 词类 ”。 它 们 是 : 名 词 、 方 位 词 、 代 词 、 动 词 、 能 愿 动词 、 形 容 
词 、 副 词 、 介 词 、 连 词 等 九 类 词 。 男 一 些 词类 ， 或 者 其 兼 类 问题 的 解 
决 比较 容易 ， 或 者 其 兼 类 现象 极 少 ， 如 时 间 词 中 ， 仅 “过 去 ”一 词 兼 
属 “ 时 间 ( 词 ) 一 趋向 (动词 ) 一 动 ( 词 ) ”三 类 ， 可 以 把 这 些 词类 ， 
Ur dpi TAS" 它们 十 : 时 间 词 、 数 词 、 量 词 、 区 别 词 、 趋 
向 动词 、 助 词 等 六 类 词 。 


羔 类 词 所 仿 兼 类 词类 的 个 数 各 有 不 同 ， 有 的 兼 类 词 只 含 两 个 兼 类 
词类 ， 有 的 兼 类 词 合 有 二 个 兼 类 词类 。 茶 一 类 兼 类 现象 所 合 兼 类 词类 
的 个 数 叫 做 兼 类 长 度 。 兼 类 长 度 等 于 2 而 且 所 售 兼 类 词类 均 属 基本 兼 类 
词类 的 兼 类 类 型 ， 叫 做 “ 兼 类 基本 型 *。 如果 我 们 解决 了 兼 类 基本 型 的 
兼 类 问题 ， 实 际 上 整 等 于 解决 了 大 部 分 的 兼 类 问题 ， 而 其 它 的 兼 类 问 
题 ， 也 可 设法 将 其 转化 为 兼 类 基本 型 ， 这 样 ， 束 可 以 抓 住 兼 类 现象 中 
的 核心 问题 ， 通 过 少量 的 规则 来 处 理 尽 可 能 多 的 兼 类 现象 。 


羔 类 基本 型 有 以 下 几 种 : 
(1)“ 动 一 名 ” 兼 类 


这 种 兼 类 基本 型 最 为 常见 。 兼 类 词 多 由 动词 转化 而 来 。 例 如 ,，“ 报 
E. RH, RE, ZT, A, TE, RRE -° 


(2) “ 动 一 形 ” 兼 类 


这 种 兼 关 基 本 型 次 常见 。 兼 类 词 主 要 由 形容 词 转化 而 来 形容词 
后 车 带 宾语 ， 则 认为 其 兼 有 动词 的 类 。 例 如 ，“ 多 ， 苦 ， 严 肃 ， 繁 荣 ， 
普及 ， 巩固 ”等 d 


(3)“ 名 一 形 ” 兼 类 


这 种 兼 类 基本 型 常见 。 兼 类 词 多 由 形容 词 转化 而 来 。 例 如 ,，“ 秘 
US. MAE, JEn. WE, JUN. PE o 


下 面 几 种 兼 类 基本 型 也 是 比较 常见 的 : 
(4)“ 形 一 副 * 兼 类 


有 的 形容 词 在 修饰 请 词性 成 分 时 ， 意 义 有 所 改变 ， 句 法 功能 与 副 
词 相同 ， 


形成 “ 形 一 副 ” 兼 类 。 例 如 ,“ 直 ,， 怪 ， 老 , €. A, ot, BR, fm. 


试 比较 : 


路 很 下 (“ 直 ” 为 形容 词 ) 
WER (“ 直 ” 为 副词 ) 


(5)“ 动 一 介 ” 兼 类 


现代 汉语 中 的 很 多 介词 是 由 动词 发 展 而 成 的 ， 因 此 ， 介 词 肖 第 与 
BARA ° HON, "XE, 8H. Tl, fL. WA. Xj. 为， 跟 ， 随 着 ”等 。 


试 比较 : 


我 本 家 (“在 ”为 动词 ) 
我 本 办 公 室 开 会 “在 ”为 介词 ) 


(6)“ 介 一 副 * 兼 类 


这 种 兼 类 基本 型 数目 有 限 ， 且 多 为 单 首 词 。 例 如 ,“ 连 ， 束 ， 至 ， 


从 ”等 。 
试 比较 : 


他 从 日 本 来 《“ 从 ”为 介词 ) 
他 从 不 抽烟 〈“ 从 ?为 副词 ) 


(7) “名 一 副 * 兼 类 
这 种 兼 类 词 不 多 见 。 例 如 ，“ 极 端 * 。 
试 比较 


UK BEA T MO (“极端 ”为 名 词 ) 
他 对 顾客 胡 堪 热忱 “极端 ”为 副词 ) 


(8)“ 动 一 副 * 兼 类 


这 种 兼 类 基本 型 数目 有 限 。 例 如 ,，“ 断 ， 还 ， 越 ， 比 较 ” 等 。 


试 比较 : 


ENTS (“ 断 ” 为 动词 ) 
上 新 无 此 事 〈“ 断 ”为 副词 ) 


(9)“ 代 一 副 * 兼 类 


代词 中 有 些 指 别 词 ， 亦 可 修饰 请 词性 成 分 。 例 如 ,， “BE, 4. AN, 
T XS, BUR 


试 比较 : 


本 编 辑 部 概 不 负责 (“本 ”为 代词 ) 
PAW (RHENE) 


(10) “能 愿 (动词 一动 ” 兼 类 


有 的 能 愿 动词 可 以 市 体 词性 宾语 。 例 如 ,“ 要 ,会 ， 得， 想 
配 ?等 ， 属 于 此 类 。 


poe 
x 


试 比较 : 


他 要 去 美国 (“要 ”为 能 愿 动词 ) 
他 要 这 本 书 (“要 ”为 动词 ) 


(11) *fr—3E"3&25 


I RRRA, A, Bl SUL, VS A as ee, 
区 别 起 来 相当 困难 。 


试 比较 : 


我 德 小 张 都 会 德语 (“和 ”为 连词 ) 
我 和 和 小 张 说 了 这 件 事 (“和 ”为 介词 ) 


(12)“ 副 一 连 ” 兼 类 


这 一 类 兼 类 如 “不 过 ， 或， 或 者 ， 并 ， 尽 管 ， 只 是 ”等 ， 区 别 起 来 
比较 困难 。 


试 比较 : 


这 个 建议 对 他 们 或 有 好 处 (“或 ”为 副词 ) 
你 或 他 都 可 以 出 国 〈“ 或 ?为 连词 ) 


(13) “方位 〈 词 ) 一 动 ”* 兼 类 


这 一 类 兼 类 虽然 只 包含 “上 ， 下 ”两 个 词 ,但 由 于 “在 ... 上 ”、“ 在 .… 
下 ”这 一 类 搭配 很 常见 ， 有 了 时 可 能 产生 混乱 ， 所 以 将 其 列 为 兼 类 基本 


型 


试 比较 : 
我 上 学 (“上 ”为 动词 ) 
我 在 昆明 上 学 (“上 ”为 动词 ) 
我 在 床上 (“上 ”为 方位 词 ) 
我 在 床上 看 书 (“上 ”为 方位 词 ) 


非 基 本 兼 类 词类 的 兼 类 问题 比较 容易 解决 ， 因 为 它们 的 前 一 个 或 
后 一 个 句法 单元 (通常 是 一 个 单词 ;有 十 分 强 的 猪 附 性 ， 可 以 根据 这 
些 人 句法 单元 来 区 别 兼 类 现象 。 例 如 ,“ 本 ” 兼 属 人 代词、 副词、 量词 二 
类 ， 我 们 只 要 看 它 的 直接 前 趋 词 是 否 为 数 词 ， 束 可 以 判断 它 古 否 为 量 


i. Ma, “ 微 ” 兼 属 区 别 词 、 副 词 两 类 ， 如 果 它 的 直接 后 继 词 为 名 
词 ， 承 马上 可 以 判断 它 为 区 别 词 。 因 此 ， 在 处 理 兼 类 问题 时 ， 可 以 根 
据 完 易 后 难 的 原则 ， 先 解决 这 一 部 分 的 问题 ， 束 可 以 大 大 位 化 处 理 的 
过 程 。 这 种 方法 ， 叫 做 “ 兼 类 词 过 着 ”。 


例如 ， 

“本 ”为 “ 代 一 副 一 量 ” 兼 类 词 ， 可 先 过 滤 量 词 : 
( 代 一 副 一 量 ) -> ( 代 一 副 ) 

“ 微 * 为 “区 别 一 副 * 兼 类 词 ， 可 先 过 滤 区 别 词 : 


“得 "为 “能 原 一 动 一 助 " 兼 关 词 ， 可 先 过 渡 助 词 


(能 愿 一 动 一 助 ) (能 愿 一 动 ) 


“ 回 ” 为 “趋向 一 动 一 量 ” 兼 类 词 ， 可 先 过 滤 趋 向 动词 和 量词 : 
(趋向 一 动 一 量 ) >h 

“过 ”为 “趋向 一 动 一 助 * 兼 类 词 ， 可 先 过 滤 趋 同 动 词 和 助词 : 
(趋向 一 动 一 助 ) + By) 


“来 "为 " 移 向 一动 - 方 位 一 助 - 数 " 兼 类 词 ， 可 先 过 小 趋向 动词 、 
助词 和 数 词 


(趋向 一 动 一 方位 一 助 一 数 )  ( 动 一 方位 ) 


经 过 上 述 的 过 滤 之 后 ， 如 末 兼 类 长 度 仍然 大 于 2， 可 将 剩余 部 分 分 
解 为 才干 个 兼 类 基本 型 进一步 加 以 解决 。 


例如 ，“ 该 "是 “能 愿 一 动 一 代 * 兼 类 词 ， 兼 类 长 度 大 于 2， 可 分 解 


(能 愿 一 动 一 代 ) > (OR (能 愿 一 动 ) 一 代 ) 
其 中 ,，“OR” 是 逻辑 运算 符 ， 表 示 “ 析 取 ” 运 算 。 


“ 邻 ” 是 “能 愿 一 动 一 名 ” 兼 类 词 ， 兼 类 长 度 大 于 2， 可 分 解 为 : 
(能 愿 一 动 一 名 ) > (OR (OR (能 愿 一 动 ) 一 名 ) 
(OR ( 动 一 名 ) 一 能 愿 ) ) 


“多 ”是 “ 形 一 副 一 动 一 数 ” 兼 类 词 ， 兼 类 长 度 大 于 2， 可 先 过 滤 ， 后 


分 解 。 
Fo ete BUA)” 
( 形 一 副 一 动 一 数 ) > ( 形 一 副 一 动 ) 
然后 再 分 解 : 
( 形 一 副 一 动 ， ^ (OR (OR ( 形 一 副 ) 一 动 ) 
(OR ( 形 一 动 ) 一 副 ) 
(OR ( 副 一 动 ) 一 形 ) 


对 于 极 个 别 的 兼 类 现象 ， 徘 上 述 方法 解决 不 了 ， 束 要 采用 一 些 特 
殊 的 个 性 规则 来 解决 。 


目 动 切 词 、 目 动词 类 标注 是 汉语 书面 语 目 动 形态 分 析 主 要 内 容 。 
通过 这 样 的 目 动 形态 分 机， 我 们 惑 能 够 将 一 个 没有 经 过 任何 预 处 理 的 
汉语 真实 文本 〈 又 可 称 为 “ 生 语 料 ”) ， 改 变 为 一 个 词 与 词 之 间 有 空白 
的 、 每 个 词 都 标 有 词类 和 语义 义 项 代码 的 文本 (又 可 称 为 “ 熟 语 
T") 。 把 生 语 料 改变 为 熟 语 料 之 后 ， 熟 语 料 文本 就 可 为 进一步 进行 目 
动 句 法 分 析 和 语义 分 析 提 供 民 好 的 条 件 ， 这 是 汉语 目 然 语言 目 动 处 理 
的 极为 有 用 的 资源 ， 它 对 于 汉 外 机 器 翻 译 和 计算 机 的 汉语 目 然 语言 理 
解 ， 都 是 非常 重要 的 。 


第 六 六。 基于 统计 的 目 动 标注 


我 们 前 面 所 讲 过 的 目 然 语言 形态 分 析 中 所 用 的 目 动 切 分 、 目 动词 
类 标注 、 目 动词 义 排 履 等 方法 ， 对 于 大 规模 真实 文本 的 语 料 的 目 动 标 
注 是 很 有 意义 的 。 


但 是 ， 我 们 前 面 所 用 的 方法 ， 基 本 上 是 基于 规则 的 理性 主义 的 方 
法 ， 把 这 种 方法 用 于 大 规模 真实 文本 的 自动 标注 ， 其 标注 的 正确 率 不 
会 很 高 。 例 如 ，1971 年 格林 讷 和 和 鲁 宾 设 计 的 词性 标注 系统 TAGGIT 
采用 有 86 个 标记 的 标记 集 和 用 于 排除 兼 类 词 歧 义 的 3 300 条 规则 ， 对 美 
国 的 布朗 语料库 进行 自动 词性 标注 ， 标 注 正 确 率 仅 是 77%。 因 此 ， 很 
有 必要 对 这 种 基于 规则 的 理性 主义 方法 加 以 改进 ， 于 是 ， 学 者 们 提出 
了 统计 的 方法 。20 世 纪 80 年 代 初 ， 玛 沙 尔 、 里 奇 和 加 塞 德 等 人 设计 了 
第 一 个 利用 统计 方法 的 词性 标注 系统 CLAWS ， 对 LOB 语 料 库 
(Lancaster-Oslo-Bergen Corpus) 进行 自动 标注 ， 一 下 子 就 把 标注 正确 


率 提 高 到 96%， 比 基于 规则 的 TAGGIT 系 统 提高 了 将 近 20%。 最近 他 们 
同时 考察 三 个 相 邻 标记 的 同 现 频率 ， 使 自动 语法 标注 的 正确 率 达 到 
99.5%。 这 个 指标 已 经 超过 了 人 工 标注 所 能 达到 的 最 高 正确 率 。 由 此 
不 难看 出 采用 统计 方法 的 优越 性 。 


很 久 以 前 概率 方法 就 用 来 做 标注 了 。1965 年 ， 斯 托 尔 深 (Stolz) 
等 首先 使 用 概率 来 进行 标注 。1976 年 ， 巴 乐 (Bahl) 和 梅 尔 塞 尔 
(Mercer) 人 研制 出 使 用 韦 特 比 解码 (Viterbi decoding) 的 完全 的 概率 
标注 系统 。 在 20 世 纪 80 年 代 ， 各 种 基于 统计 的 标注 系统 纷纷 建立 起 
来 o 


下 面 我 们 介绍 几 种 基于 统计 的 目 动 标注 方法 。 


1. CLAWS 算 法 


词性 标注 系统 CLAWS 采 用 了 CLAWS 算 法 。CLAWS 算 法 是 “成 分 
似 然 性 自动 词性 标注 系统 ” (Constituent-Likelihood Automatic Word- 
tagging System) 的 简称 。 这 种 算法 是 1983 年 由 玛 沙 尔 (Mashall) 在 给 
LOB 语 料 库 作 目 动词 性 标注 时 提出 的 。 他 使 用 的 标记 集 有 133 个 标记 。 
具体 做 法 是 ， 先 从 得 标注 的 LOB 语 料 库 中 选 出 来 部 分 语 料 ， 叫 做 “训练 
R” (Training Set) ， 对 训练 集中 的 语 料 逐 词 进行 词性 的 人 工 标 注 ， 然 
后 利用 计算 机 对 训练 集中 的 任意 两 个 相 邻 标记 的 同 现 概率 进行 统计 ， 
形成 一 个 相 邻 标记 的 同 现 概 率 和 矩阵 。 进 行 目 动 标 注 时 ， 需 要 从 LOB 语 
料 库 中 选 出 来 男 外 一 些 语 料 作 为 “测试 集 ” (Test Set) ， 系 统 从 测试 集 
的 输入 文本 中 顺序 地 截取 一 个 有 限 长 度 的 词 串 ， 这 个 词 串 的 首 词 和 尼 
词 的 词性 应 该 是 唯一 的 。 最 后 ， 利 用 同 现 概 率 和 矩阵 提供 的 数据 米 计 算 


这 个 词 串 产生 的 每 个 可 能 标记 的 概率 积 ， 并 选择 概率 积 最 大 的 标记 串 
作为 输出 结果 。LOB 语 料 库 是 拥有 各 类 文体 的 英国 英语 语料库 ， 库 容 
量 为 100 万 词 ， 用 CLAWS 算 法 来 对 整个 LOB 语 料 库 进行 目 动 词性 标 
注 ， 标 注 正确 率 大 大 地 提高 


我 国 山西 大 学 刘 开 瑛 等 ， 用 CLAWS 算 法 选择 10 万 汉字 的 汉语 语 料 
库 作 为 训练 集 ， 进 行人 工 标注 ， 他 们 使 用 的 标记 集 有 174 个 标记 。 具体 
做 法 可 分 为 如 下 几 步 : 


(1) 建立 标记 的 同 现 概 率 和 矩阵: 利用 计算 机 对 训练 集中 的 任意 两 
个 相 邻 标记 的 同 现 概率 进行 统计 ， 形 成 如 下 174 x 17485 [8] BUSES RR E 
P 


POO POl P02 
P10 P11 P12 


其 中 ，Pi 表示 标记 为 的 词 与 标记 为 j 的 词 的 同 现 概率 。 计 算 公 式 
为 


标记 1i bio j 的 同 现 次 数 
一 标记 1 与 标记 j 的 出 现 次 数 x 100% 


” 标记 i 与 标记 j 的 出 现 次 
对 于 所 有 的 i 和 j, Pi 20， 且 >P; =1。 


设 NG 是 普通 名 词 的 词类 标记 ，RN 是 体 词 性 代词 的 词类 标记 ， 
USDE 是 结构 助词 “的 ”的 词类 标记 ，USDI 结 构 助词 “地 ”的 词类 标记 ， 
YE 是 句 末 语气 词 的 词类 标记 ， 通 过 对 训练 集中 的 语 料 进 行人 工 标注 统 
计 得 出 的 部 分 同 现 概率 和 矩阵 如 下 : 


NG RN USDE USDI YE 


0.219 388 0.005 218 0. 089 402 0. 000 580 0. 002 203 
0.248 314 0. 006 744 0. 086 450 0. 000 001 0.001 839 


0. 591 746 0.015 143 0. 000 001 0. 000 001 0. 003 266 
0. 009 434 0. 009 434 0. 000 001 0. 000 001 0. 000 001 
0. 006 410 0. 000 001 0. 000 001 0. 000 001 0. 000 001 


图 3.29 ” 同 现 概率 矩阵 


(2) 建立 非 兼 类 词 词典 : 汉语 词汇 中 的 大 部 分 是 非 兼 类 词 ， 非 兼 
类 词 可 以 直接 通过 查 词典 的 办 法 进行 目 动 标注 。 共 收 非 兼 类 词 8 000 多 
条 ， 每 个 词 条 只 包括 词 项 和 标记 两 项 。 


(3) 建立 兼 类 词 词典 : 兼 类 词 在 汉语 词汇 中 所 占 比 例 不 大 ， 但 是 
复 兰 面 广 ， 它 们 是 目 动 标注 的 难点 。 共 收 兼 类 词 1 500 多 个 ， 每 个 词 条 
除 词 项 和 者 干 个 兼 类 的 词类 标记 之 外 ， 还 要 注 明 相应 标记 在 训练 集 语 
料 中 的 出 现 概率 。 下 面 是 兼 类 词典 中 的 一 部 分 ，Bi 表 示 词 类 ，Ni 表 示 
该 标记 的 出 现 概率 。 


Bl NI B2 N2 


D 0.973} DC 0.022 
D 0.404} VG 0.038| VGN 0.308, VGV 0.019 
VG 0.500} VGN 0.500 


213.30 RRHH 


上 图 中 ，D 是 普通 副词 的 词类 标记 ，DC 是 关联 性 副词 的 词类 标 
记 ，VG 是 一 般 动 词类 标记 ，VGN 是 带 名 词 宾语 的 动词 的 词类 标记 ， 
VGV 是 带动 词 宾 语 的 动词 的 词类 标记 ，VHF 是 动词 “无 ?和 “没有 ”的 词 
类 标记 。 


同 现 概率 矩阵、 非 兼 类 词 词典 、 兼 类 词 词典 的 各 种 信息 ， 都 是 从 
训练 集中 分 析 和 统计 而 得 出 的 ， 它 们 是 下 一 步 进行 自动 标注 的 依据 。 

(4) 确定 标记 跨 段 : 从 这 一 步 开 始 进行 自动 标注 。 

对 于 竺 标注 的 语 料 ， 首 驳 得 非 兼 类 词 词 典 和 兼 类 词 词典 ， 并 给 语 
料 中 所 有 的 词 标 出 从 词典 中 查 出 的 相应 标记 。 

如 果 一 个 词 串 Wo W, W, o Was Wa P, Wo 和 Wi 都 是 
JERE Ri], W, Ws, .. W, 是 n 个 兼 类 词 ， 则 称 这 个 词 串 是 一 个 标记 
跨 段 (span) ， 标 记 蜂 段 中 兼 类 词 的 个 数 n， 叫 做 该 标记 跨 段 的 长 度 。 


在 词 串 Wo ,WwW ,WwW,， ，..., Wi ,Wi 中 ， 自 左 向 右 顺 次 取 每 个 词 
的 一 个 标记 ， 这 些 标记 可 形成 一 条 路 径 (path) ， 路 径 由 若干 段 边 组 
成 ， 在 路 径 的 每 一 段 边 上 ， 注 明 相 邻 标记 之 间 的 同 现 概率 。 


例如 ,“ 各 /地 /的 监测 站 ”这 个 短语 可 以 形成 如 下 的 标记 路段 : 


各 地 的 监测 站 


USDE 


" — 
o XU 
USDI 一 一 YE d2 


图 3.31 标记 跨 段 


“各 ”是 普通 名 词 ， 是 非 兼 类 词 ， 位 于 标记 跨 段 的 左 端 ;“ 地 ”可 以 
征 普 通 名 词 ， 也 可 以 是 结构 助词 ， 是 兼 类 词 ; “的 ”可 以 是 结构 助词 ， 
也 可 以 是 句 末 语 气 词 ， 是 兼 类 词 ; “监测 站 ”是 吾 通 名 词 ， 是 非 兼 类 
词 ， 位 于 标记 器 段 的 右 端 。 可 以 看 出 ， 该 标记 足 段 的 左右 两 端 都 是 非 
兼 类 词 ， 这 两 个 非 兼 类 词 之 间 ， 共 有 两 个 兼 类 词 ， 所 以 ， 该 标记 路段 
的 长 度 是 2。 


在 这 个 标记 跨 段 中 ， 有 四 条 路 径 : 
路 径 1: al bl dl 

RN —— NG —— USDE —— NG 
路 径 2: al b2 d2 

RN —— NG —— YE — NG 
路 径 3: a2 cl dl 

RN —— USDI —— USDE —— NG 
路 径 4: a2 c2 d2 

RN —— USDI —— YE —— NG 


检查 从 训练 集中 统计 得 出 的 同 现 概 率 和 矩阵 ， 可 知 每 两 个 相 邻 标记 
之 间 的 同 现 概率 如 下 : 


al = 0.248314, a2 = 0.000001, 
b1 = 0.089402, b2 = 0.002203, 
c1 = 0.000001, c2 = 0.000001, 
d1 = 0.591746, d2 = 0.006410 ° 


(5) 选取 最 佳 路 径 : 标记 路段 中 每 一 条 路 径 上 相 邻 标记 之 间 同 现 
概率 的 乘积 ， 可 以 近似 地 表示 出 该 路 径 中 各 标记 之 间 同 现 概率 的 联合 
分 布 率 ， 同 现 概率 乘积 最 大 的 路 径 承 被 选 为 最 佳 路 径 。 


上 面 四 条 路 径 的 同 现 概率 乘积 如 下 : 

路 径 1: alxb1xd1 = 0.248314x0.089402x0.591746 
路 径 2: alxb2xd2 = 0.248314x0.002203x0.006410 
路 径 3: a2xc1xd1 = 0.000001x0.000001x0.591746 
路 径 4: a2xc2xd2 = 0.000001x0.000001x0.006410 


显而易见 ， 路 径 1 中 的 同 现 概 率 乘 积 最 大 ， 故 选 路 径 1 为 最 佳 路 
径 ， 其 标记 为 : RN-NG-USDE-NG ° 

最 佳 路 径 中 的 标记 ， 也 就 是 该 标记 跨 段 中 的 词 串 的 自动 标注 结 
果 。 这 样 便 实 现 了 语料库 的 自动 标注 。 


CLAWS 算 法 的 时 间 复 杂 度 和 空间 复杂 度 都 比较 大 ， 随 着 标记 跨 段 
长 度 的 增加 以 及 兼 类 词 标记 数目 的 增 大 ， 其 运行 效率 将 会 降低 。 
德 罗 斯 (DeRose) 在 CLAWS 算 法 的 基础 上 ， 提 出 了 VOLSUNGA 


算法 ， 进 一 步 提高 了 自动 标注 的 正确 率 ， 使 目 动 标注 达到 了 实用 的 水 


基于 统计 的 方法 基本 上 是 用 了 马尔 可 夫 语 言 模 型 ， 即 所 谓 的 人 元 
Tix” (n-gram) 模型 。n 元 语法 是 建立 在 n-1 阶 马尔 可 夫 模 型 上 的 一 种 
概率 语法 ， 它 通过 对 字符 串 中 n 个 字符 同 现 概率 的 统计 数据 ， 来 推断 句 
子 的 结构 关系 。 当 n=1 时 ， 叫 一 元 语法 ， 当 n=2 时 ， 叫 二 元 语法 ， 当 
n=3 时 ， 叫 三 元 语法 。CLAWS 算 法 和 VOLSUNGA 算 法 所 使 用 的 语法 都 


是 二 元 语法 。 


2. 基于 隐 马 尔 可 夫 模 型 的 目 动 标注 


另外 一 种 特定 的 基于 统计 的 自动 标注 算法 是 隐 马 尔 可 夫 模 型 
(Hidden Markov Model， 人 简称 HMM) ， 或 HMM 标 注 算 法 。 


在 所 有 的 基于 统计 的 标注 算法 后 面 的 直觉 是 “对 这 个 单词 选取 最 可 
能 的 标记 ”这 种 方法 的 最 稍 单 的 概括 。 


对 于 一 个 给 定 的 句子 或 单词 序列 ，HMM 标 注 算法 选择 使 得 下 面 的 
公式 为 最 大 值 的 标记 序列 : 


P(word|tag) P(tag|previous n tags) (1) 


这 个 公式 说 明 ， 我 们 可 以 根据 当前 标记 (tag) 前 面 n 个 标记 的 情 
i, (previous n tags) 以 及 当前 标记 (tag) 对 于 当前 词 (current word) 
的 似 然 度 来 决定 当前 词 应 当选 择 的 标记 。 


HMM 标 注 算法 一 般 是 针对 一 个 句子 而 不 是 针对 一 个 单词 来 选择 标 
记 序 列 的 ， 不过， 为 了 论述 上 的 方便 ， 让 我 们 首先 来 看 一 看 HMM 标 注 
算法 是 怎样 把 一 个 标记 指派 给 一 个 单词 的 。 我 们 首先 给 出 基本 的 等 
式 ， 然 后 通过 一 个 例子 来 使 用 这 个 等 式 ， 最 后 再 说 明 为 什么 要 使 用 这 


Var ` 
ATS 


这 种 类 型 的 二 元 语法 HMM 标 注 算法 对 于 单词 wi 选择 标记 t; ， 使 得 
对 于 给 定 的 前 面 的 标记 4 .1 和 当前 单词 wi ， 其 概率 最 大 : 


i = argmaxPX t | t; , w; ) (2) 
J 


尽管 我 们 下 面 要 讨论 某 些 简化 的 马尔 可 夫 假 定 ， 我 们 根据 等 式 
(2) ， 给 出 对 于 一 个 单独 标记 的 如 下 的 HMM 等 式 : 


t; = argmaxP( t, | t; , )P( w; | t) (3) 
J ; 


让 我 们 通过 例子 来 说 明 。 下 面 的 例子 中 ， 我 们 使 用 一 个 HMM 标 注 
算法 来 给 单词 race 指 派 恰当 的 标记 〈 两 个 例句 都 取 自 布衣 语料库， 不 
过 稍微 做 了 简化 ) : 

Secretariat/NNP is/VBZ  expected/VBN  to/TO race /VB 
tomorrow/NR [3] 
(要 求 秘书 处 明天 进行 比赛 ) 
People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN 
for/IN the/DT race /NN for/IN outer/JJ space/NN 


(人 们 继续 询问 外 层 空间 竞赛 的 理由 ) 


在 第 一 个 例子 中 ，race 是 一 个 动词 (VB) ， 在 第 二 例子 中 ，race 
是 一 个 名 词 (NN) 。 


为 了 解释 这 个 例子 ， 我 们 假定 race 周 围 的 单词 都 已 经 由 某 种 机 制 
进行 了 最 好 的 标注 作业 ， 它 们 都 得 到 了 恰如其分 的 标记 ， 而 只 有 单词 
race 是 没有 标记 的 。HMM 标 注 算法 的 二 元 语法 简单 地 假定 ， 标 注 问题 
可 以 通过 观察 周围 的 单词 和 标记 来 解决 。 我 们 在 考虑 给 race 指 派 一 个 
标记 的 问题 时 ， 只 给 出 如 下 的 子 序列 : 


to/TO race/??? 


the/DT race/??? 


在 句子 Secretariat is expected to race tomorrow#, race] 以 标注 为 
VB 或 NN， 如 下 图 所 示 : 


Secretariat expected race tomorrow 
(b) E >< 
Secretariat is expected to race tomorrow 


图 3.32 ”race 的 标记 可 以 为 VB 或 NN 


现在 让 我 们 来 看 ， 如 何 把 等 式 应 用 于 我 们 的 例子 来 求 出 race 的 标记 。 
等 式 (3) 说明， 如 果 我 们 试图 在 序列 to race 中 ， 对 于 race 的 标记 在 NN 


和 VB 之 间 进 行 选择 ， 我 们 应 该 选择 下 面 两 个 概率 中 ， 概 率 比 较 大 的 一 
个 作为 race 的 标记 : 


P(VB|TO)P(race| VB) (4) 
和 
P(NN|TO)P(race|NN) (5) 


等 式 (3) 以 及 它 的 实例 等 式 (4) 和 (5) 都 有 两 个 概率 ， 一 个 概 
率 是 标记 序列 概率 Pt lb .1 )， 一 个 概率 是 单词 的 似 然 度 P(wi It) 。 


对 于 race 来 说 ， 标 记 序列 概率 P(NN|TO) 和 P(VBITO) 就 是 “对 于 给 定 
的 前 面 的 标记 ， 我 们 期 望 race 是 动词 (或 名 词 ) 的 概率 有 多 大 ? ”这 个 
问题 给 我 们 的 回答 。 这 些 概率 可 以 通过 从 一 个 语料库 中 进行 计数 和 归 
一 化 的 方法 来 计算 。 我 们 可 以 预期 ， 动 词 比 名 词 更 多 地 跟随 在 TO 之 
后 ， 因 为 不 定式 动词 (to race, to run, to eat) 在 英语 中 很 普遍 。 名 词 也 
可 能 跟随 在 TO 之 后 (walk to school, related to hunting) ， 但 是 这 种 情 
况 不 很 普遍 。 


为 了 使 我 们 更 加 充分 地 确信 这 种 预期 ， 我 们 把 布朗 语料库 和 
Switchboard 语 料 库 结 合 起 来 观察 ， 得 到 如 下 的 概率 ， 它 们 说 明 ， 在 TO 
之 后 ， 动 词 出 现 的 概率 是 名 词 的 15 倍 : 


P(NN|TO) = 0.021 
P(VB|TO) = 0.34 


等 式 (3) 以 及 实例 等 式 (4) 和 (5) 中 的 第 二 部 分 是 词汇 的 似 然 
E: 单词 race 与 给 定 标 记 的 似 然 度 ， 即 Paacel|VB) 和 PacelINN)。 注 


意 ， 这 个 似 然 度 项 目 不 是 问 “对 于 这 个 单词 ， 哪 一 个 是 它 最 可 能 的 标 
记 ? * 也 就 是 说 ， 这 个 似 然 度 项 目 不 是 P(VBlracej。 我 们 应 该 计算 的 似 
然 度 是 PtracelVB)。 这 个 概率 与 我 们 的 直觉 有 些 相左 ， 它 回答 的 问题 
是 : “如 果 我 们 期 望 一 个 动词 ， 那 么 ， 这 个 动词 是 race 的 可 能 性 是 多 
[9 » 


mes 


这 里 是 把 布朗 语料库 和 Switchboard 语 料 库 结合 起 来 计算 出 的 词汇 
似 然 度 : 


P(race|NN) = 0.000 41 
P(race|VB) = 0.000 03 


如 果 我 们 把 词汇 似 然 度 与 标记 序列 概率 相 乘 ， 我 们 可 以 看 出 ， 尽 
管 是 HMM 标 注 算法 的 稍 单 的 二 元 语法 ， 也 能 够 正确 地 把 race 的 标记 确 
定 为 VB， 尽 管 race 的 含义 为 VB 的 可 能 性 比较 小 : 


P(VB|TO)P(race|VB) = 0.34* 0.000 03 = 0.000 01 
P(NN|TO)P(race|NN) = 0.021* 0.000 41 = 0.000 007 


我 们 说 过 ， 一 个 真正 的 HMM 标 注 算法 不 应 该 只 针对 一 个 单独 的 单 
词 选 择 最 好 的 标记 ， 而 应 该 针对 整个 的 句子 选择 最 好 的 标记 序列 。 我 
们 已 经 有 了 针对 一 个 单词 的 HMM 标 注 算 法 的 直 党 ， 现 在 让 我 们 给 出 其 


完全 的 等 式 。 


一 般 说 来 ， 我 们 使 用 韦 特 比 近似 方法 ， 为 每 一 个 句子 选择 概率 最 
大 的 标记 序列 。 因 此 ， 这 种 方法 假定 ， 对 于 句子 中 给 定 的 单词 序列 
(w) ， 我 们 来 计算 每 一 个 句子 中 概率 最 大 的 标记 序列 T=t ,tb ,.…, ty 


八 


T = argmaxP( 了 | W) 
Te: 


根据 贝 叶 斯 (Bayes) 定理 ，P(TIW) 可 以 表示 为 : 


PCTPR WIT) 
RT) gue eee mu 
PW) 
因此 ， 我 们 试图 选择 标记 序列 ， 使 得 全 最 大 : 
T — ar ES T) W| T) 
am m PCW) 


因为 对 于 给 定单 词 序 列 ， 我 们 要 找 出 一 个 句子 的 最 可 能 的 标记 序 
列 ， 所 以 ， 单 词 序 列 的 概率 P(W) 对 于 每 一 个 标记 序列 都 是 相同 的 ， 我 
们 可 以 忽略 它 ， 这 样 ， 我 们 有 : 


D argmaxP( T )P( WI T) 


Ter 
从 概率 的 “ 链 规 则 ?出 发 ， 我 们 来 进行 N 元 语法 假设 : 
P(T)P WIT)= II^ Lb lwt b. )PC iD. | ad f, oro, b t ) 
其 中 ， Dw ti .Wij-1 ti-1 表示 单词 Fw e Wii 以 及 它们 相应 的 标记 
ti -eti ; P(t | Wi ti e Wi ti-1 ) 是 标记 的 转移 概率 ， Wi ti Wi ti-1 ti 表 
示 单 词 wi 前 面 的 单词 蛙 、 单 词 串 中 每 一 个 单词 相应 的 标记 以 及 wi 的 标 
idt; , P(w; [wi ti ...Wi-1 G1 T ) 是 标记 fi 与 单词 w; 0 的 似 然 度 * 


正如 我 们 在 等 式 中 为 了 给 单词 序列 的 概率 建立 模型 时 所 做 的 那 
FÉ, ， 我 们 再 做 N 元 语法 假设 。 由 于 三 元 语法 模型 使 用 最 为 广泛 ， 我 们 
来 定义 “三 元 语法 模型 ”。 首 先 ， 我 们 简单 地 假定 单词 的 概率 是 独立 于 
它们 的 标记 的 : 
P(w; [w, ti .Wi t; t; )=p(wi It; ) 


其 次 ， 我 们 假定 标记 的 历史 能 够 用 最 邻近 的 两 个 标记 来 近似 地 表 


P(t, [w] tq .Wi t 4 )7p(ti lti- t) 
这 样 ， 我 们 选择 标记 序列 的 最 大 值 为 
POP VOD ERG tates) [ERG n] 
也 就 是 Ro rs anal » P| GPC, Lara - «] 
通常 我 们 可 以 使 用 最 大 似 然 度 估计 从 相对 频 度 来 估计 这 些 概率 ; 


c L; Jl; t; ) 
rs tob; ) 


cf W, yt. ) 


PC wl i) = 一 一 一 一 
1 1 c(t,) 


其 中 c 表 示 计 数 (count) ， 这 个 模型 也 可 以 进行 平滑 
(smoothing) ， 以 避免 零 概率 。 


PC [; | b; oli ) 


使 用 韦 特 比 算法 可 以 找 出 概率 最 大 的 标记 序列 。 


Bil (SK (Weischedel) 等 1993 年 的 报告 和 德 罗 斯 (DeRose) 
1988 年 的 报告 ， 他 们 使 用 这 种 算法 ， 准 确 率 达到 大 约 96% © 


迄今 我 们 看 到 的 HMM 标 注 系统 都 是 使 用 手工 标注 的 数据 来 训练 
的 。1992 年 ， 库 皮 克 (Kupiec) ， 卡 迁 (Cutting) 等 以 及 其 他 一 些 学 
者 说 明 ， 也 可 以 在 没有 标记 的 数据 上 ， 使 用 期 望 最 大 算法 
(Expectation Maximization algorithm ， 人 简称 EM 算法 ) 进行 无 指导 的 机 
怖 学 习 ， 来 训练 HMM 标 注 系统 。 这 些 标 注 系 统 仍 然 从 词典 开始 ， 词 典 
中 要 指出 什么 样 的 单词 可 以 指派 什么 样 的 标记 ; 然后 ，EM 算 法 对 于 每 
一 个 标记 目 动 地 学 习 单词 似 然 度 的 功能 以 及 标记 转换 概率 。 不 过 ， 
EZZ (Merialdo) 1994 年 的 实验 表明 ， 尽 管 只 用 少量 的 训练 数据 ， 
用 手工 标注 训练 出 的 标注 系统 也 比 通过 EM 的 机 恬 学 习 方 法 训练 出 的 标 
注 系统 的 工作 情况 要 好 。 


因此 ，EM 训 练 出 的 “纯粹 的 HMM” 标 注 系 统 大 概 只 有 在 没有 可 用 
的 训练 数据 的 情况 下 ， 才 是 最 适用 的 ， 例 如 ， 当 前 面 没有 手工 标注 的 
数据 来 对 语言 进行 标注 时 ， 融 可 以 使 用 EM 算法 来 进行 训练 。 


3. EP BOA ALN H SPE 


在 很 多 时 候 ， 在 目 然 语言 处 理 中 碰 到 的 类 型 的 分 类 问题 都 涉及 到 
大 量 的 类 别 (例如 ， 词 类 标记 中 的 类 别 ) 。 逻 辑 回 归 需 要 有 处 理 多 个 
离散 值 的 功能 。 在 这 样 的 场合 ， 我 们 就 把 这 种 逻辑 回归 叫做 多 元 逻辑 


回归 (multinomial logistic regression) 。 在 自然 语言 处 理 中 ， 多 元 逻 
辑 回 归 叫 做 最 大 粹 模型 (MaxEnt) ° 


MaxEnt 属 于 指数 分 类 器 (exponential classifier) 或 对 数 线性 分 类 
$$ (log-linear classifier) 的 家 族 。MaxEnt 在 工作 时 ， 从 输入 中 抽取 某 
些 特征 ， 把 这 些 特征 线性 地 (linearly) 结合 起 来 ， 也 就 是 对 每 一 个 特 
征 乘 以 一 个 权 值 ， 然 后 把 它们 相 加 。 由 于 下 面 将 要 讨论 的 原因 ， 我 们 
要 把 相 加 所 得 的 总 和 作为 指数 来 使 用 。 


让 我 们 对 这 种 直觉 做 更 加 具体 的 说 明 。 假 定 我 们 有 某 个 输入 x (E 
可 以 是 一 个 需要 标注 的 单词 或 一 个 需要 分 类 的 文件 ) ， 我 们 从 x 中 抽取 
某 些 特征 。 例 如 ， 用 来 做 标注 的 特征 可 以 是 “该 单词 以 -ing 结 尾 "或 "前 
一 个 单词 是 the”。 对 于 每 一 个 这 样 的 特征 f ， 我 们 有 某 个 权 值 w 。 


给 出 了 这 些 特征 和 权 值 ， 我 们 的 目的 是 为 这 个 单词 选择 一 个 类 别 


(例如 ， 选 择 一 个 词类 标记 ) 。MaxEnt 选 择 概 率 最 大 的 标记 作为 该 单 
词 所 属 的 类 别 ;， 对 于 给 定 的 观察 x， 特 定 类 别 c 的 概率 为 : 


] 
pl clx) = ze 2, w, f, ) 


这 里 ，Z 是 归 一 化 因子 ， 其 作用 在 于 使 概率 的 总 和 正确 地 归结 为 
1; 按照 惯例 ，exp(x) = e*。 以 后 我 们 会 看 到 ， 上 面 的 公式 古 一 个 简化 


了 的 公式 ， 在 实际 的 MaxEnt 模 型 中 ， 特 征 f 和 权 值 w 两 者 都 依赖 于 类 别 
co 也 就 是 说 ， 对 于 不 同 的 类 别 ， 我 们 有 不 同 的 特征 和 权 值 。 


MaxEnt 分 类 郁 计 算 类 别 概率 的 公式 是 
exp( Y. _ wifi) 
1 + exp( by wf) 


ply = truel x) = 


和 
ply = falsel x) = 一 一 
1 + exp( >. Wifi ) 


我 们 假定 y 的 目标 值 是 一 个 随机 变量 ， 这 个 随机 变量 对 于 类 别 ci ， 
cz ,.… Cc ， 取 C 个 不 同 的 值 。 


在 一 个 MaxEnt 模 型 中 ，y 是 特定 类 别 c 的 概率 ， 使 用 如 下 公式 来 们 
i: 
y= pele) = Fexp Dw, f (1) 


其 中 ，wi 是 权 值 ， 和 是 特征 。 


现在 我 们 给 这 个 原理 性 的 公式 加 上 某 些 细 市 。 首 先 ， 我 们 来 充实 
归 一 化 因子 Zz 的 内 容 ， 把 特征 的 数目 定 为 N， 并 根据 类 别 c 给 加 权 赋 
值 。 最 后 得 到 的 等 式 为 : 


exp ( 2: ws Jy. | 


piel x) = = (2) 


Loo( Deas j 


i=0 


注意 ， 归 一 化 因子 Z 只 是 用 于 把 指数 引入 真 的 概率 中 : 


Z = 2 (cl) = $, exp Yu f.) (3) 


=¢ 


其 中 的 c 十 C 中 的 某 一 个 类 别 ， 全 部 c 的 “并 ” 填 满 C。 


c 


为 了 看 到 最 终 的 MaxEnt 公 式 ， 我 们 还 要 再 作 一 些 改变 。 前 面 我 们 
一 直 假 定 特征 f 是 取 实 值 的 。 但 是 ， 在 自然 语言 处 理 中 ， 更 多 的 是 使 
用 二 值 特征 。 如 果 一 个 特征 只 取 值 0 和 1， 这 个 特征 也 可 以 叫做 指示 画 
数 (indicator function) 。 一 般 地 说 ， 我 们 使 用 的 特征 都 是 指示 函数 ， 
它 要 指示 出 观察 的 某 些 特性 与 我 们 考虑 指派 给 它 的 类 别 。 因 此 ， 在 
MaxEnt 中 ， 我 们 不 使 用 fi 这 样 的 记 法 ， 而 使 用 fi (c x) 这 样 的 记 法 ， 它 


的 意思 是 指 对 于 给 定 的 观察 x， 某 一 特定 的 类 别 c 的 特征 i 。 


在 MaxEnt 中 ， 给 定 x 和 类 别 ce， 计 算 y 的 概率 的 最 终 公 式 为 : 


exp ( > wf C e, x) | 


Eel x) = 一 (4) 
2, exp ( 2 wal e PE ) ] 
为 了 使 我 们 对 于 二 元 特征 的 使 用 有 一 个 更 加 清楚 的 直观 理解 ， 我 


们 来 看 一 看 词类 标注 中 一 些 作 为 样本 的 特征 。 假 定 我 们 给 单词 race 标 
注 了 词类 。 


Secretariat/NNP is/VBZ  expected/VBN  to/TO race /VB 


tomorrow/ 


(要 求 秘 书 处 明天 进行 比赛 ) 

我 们 这 里 是 做 某 个 单词 的 分 类 而 不 是 做 序列 分 类 ， 所 以 ， 我 们 只 
考虑 这 个 孤 零 雯 的 单词 。 我 们 将 在 以 后 讨论 怎样 对 整个 的 单词 序列 进 
行 标注 的 问题 。 

现在 我 们 想 了 解 ， 是 否 应 当 把 类 别 VB 指 派 给 race (或 者 不 这 样 
做 ， 而 把 其 他 的 诸如 NN 这 样 类 别 指派 给 race) 

我 们 用 一 个 很 有 用 的 叫做 和 的 特征 来 说 明 当 前 的 单词 是 race 这 样 
的 事实 。 如 采 是 这 样 的 情况 ， 我 们 就 可 以 加 一 个 二 元 特征 说 明 这 
KA”: 

| if word, = "race" & e = NN 
f c,x) = | 


O otherwise 


男 外 一 个 特征 说 明 前 面 一 个 单词 是 否 有 标记 TO: 


L 和 
ees te 
0 otherwise 


还 有 两 个 词类 标注 特征 用 于 表示 单词 的 拼写 和 大 小 写 : 


if suffix(word,) = “ing” & ce = VBG 


otherwise 


1 
Mea) = | 
0 


1 if is lower case ( word,) & c = VB 


Mex) = | 


0 otherwise 


由 于 每 一 个 特征 与 观察 的 性 质 和 所 标注 的 类 别 是 独立 的 ， 所 以 ， 
我 们 还 需要 一 个 分 离 特征 ， 用 它 来 表示 race 和 VB 之 间 的 关联 ， 或 者 表 
示 前 面 一 个 TO 与 NN 之 间 的 关联 : 


1 if word, = "race" & c = VB 
i(<,%) = 

0 otherwise 

] 3f. d... TUO A e — NN 
Ai c,x) = 

0 otherwise 


每 一 个 这 样 的 特征 都 有 一 个 相应 的 权 值 。 因 此 ， 权 值 wi (c, x) 可 以 
表示 单词 race 对 于 标记 VB 提示 的 强度 ， 权 值 w, (c, x) 可 以 表示 前 面 单 词 
标记 为 TO 对 于 当前 单词 是 VB 提示 的 强度 ， 等 等 


fl f2 f3 f4 f5 f6 
VB f 0 1 0 1 1 0 
VB w 8 01 1 
NN f 1 0 0 0 0 1 
NN w .8 -1.3 


图 3.33 ”标注 例句 中 的 单词 race 时 的 某 些 样本 特征 值 和 权 值 


我 们 假定 ， 对 于 VB 和 NN 这 两 个 类 别 的 特征 权 值 如 上 图 所 示 。 我 们 把 
当前 输入 观察 (这 里 的 当前 词 为 race) 叫做 x。 现 在 我 们 使 用 等 式 
(4) 来 计算 P(NN|x) 和 P(VB|x): 


0.8+( -1.3) 0.8 ~1.3 


e e e 
EK NNI x)= = = 0.20 
0.8+( -1.3 ) 0. 8+0. 01 +0. 1 0.8 -1.3 0.8 0.01 0.1 
e +e e € te e ? 
e? 840.01 +0. 1 e® Son 01 e? 1 
P( VBI x)= = = 0. 80 
e 8+( -1.3) 0. 8+0. 0140. 1 0.8 -1.3 0.8 e" 01 0.1 
te e e +e 


注意 ， 当 我 们 使 用 MaxEnt 进 行 分 类 a 时 ，MaxEnt 
目 然 会 把 在 这 个 类 别 上 的 概率 分 布 给 我 们 。 如 果 我 们 想 做 便 分 类 并 且 


择 最 佳 的 类 别 ， 那 么 ， 我 们 可 以 选择 具有 最 大 概率 的 类 别 ， 也 残 


Rm s 


c = argmax/X c| x) 

因此 ，MaxEnt 中 的 分 类 是 (布尔 ) 逻辑 回归 中 的 分 类 的 泛 化 。 在 
布尔 逻辑 回归 中 ， 分 类 时 需要 建立 一 个 线性 回归 ， 把 在 该 类 别 中 的 观 
察 与 不 在 该 关 别 中 的 观察 分 离开 来 。 在 MaxEnt 中 的 分 类 与 此 相反 ， 分 
类 时 对 于 C 中 的 每 一 个 类 别 都 要 建立 一 个 分 离 的 线性 回归 。 在 这 样 的 
工作 ， 对 于 每 一 个 单独 的 单元 都 要 考察 全 部 的 概率 分 布 从 而 帮助 找 出 
最 好 的 序列 ， 这 是 非常 有 用 的 。 当 然 ， 甚 至 在 很 多 非 序列 的 应 用 中 ， 
在 类 别 上 的 概率 分 布 也 比 硬性 的 选择 更 加 有 用 。 


迄今 我 们 描述 的 特征 只 表示 一 个 观察 的 单独 的 二 元 特性 。 但 是 

如 采 建 立 更 加 复杂 的 特征 来 表示 一 个 单词 的 多 个 特性 的 组 合 ， 这 通常 
也 是 很 有 用 的 。 如 像 支持 癌 量 机 (Support Vector Machines， 人 简称 
SVM) 之 类 的 机 器 学 习 模 型 可 以 自动 地 模拟 基 元 特性 之 间 的 相互 作 
用 ,但 是 ， 在 MaxEnt 中 ， 任 何 一 种 复杂 特征 都 必须 通过 手工 来 定义 。 
例如 ， 以 大 写字 母 开头 的 单词 (如 像 单 词 Day) 更 可 能 被 归 入 专 有 名 
i] (NNP) ， 而 不 大 可 能 被 归 入 普通 名 词 (如 United Nations Day) ° 
然而 以 大 写字 母 开头 的 单词 也 可 能 出 现在 句子 的 开头 (前 面 一 个 单词 
是 <s>) 。 例 如 在 句子 “Day after day...” 中 的 Day 束 不 再 是 一 个 专 有 名 
词 。 甚 至 如 果 这 些 特性 中 的 每 一 个 都 已 经 是 基 元 特性 ，MaxEnt 也 不 能 
对 于 这 些 特 性 的 组 合 进行 建 模 ， 因 此 ， 各 种 特性 的 布尔 组 合 需要 把 它 
们 作为 一 个 特征 用 手工 编码 : 


Lug; & € 
1 if word,_,= «s» & isupperfirst (word, ) & c = NNP 


O otherwise 


要 想 成 功 地 使 用 MaxEnt， 关 键 在 于 设计 恰当 的 特征 与 特征 组 合 。 


为 什么 我 们 把 多 元 逻辑 回归 模型 叫做 MaxEnt 或 最 大 炳 模型 呢 ? 让 
我 们 在 词性 标注 的 背景 下 对 于 最 大 烂 给 出 直觉 的 说 明 。 假 定 我 们 要 给 
单词 zzfish (这 是 为 这 个 例子 而 生 造 的 单词 指派 一 个 标记 。 完 全 没有 
加 任何 约束 、 假 设 最 少 的 概率 标注 模型 是 什么 呢 ? 从 直 党 上 说 ， 这 样 
的 模型 应 该 具有 等 概率 的 分 布 : 


NN JJ NNS VB NNP IN MD UH SYM VBG POS PRP CC CD TE 
1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 ... 


现在 假设 我 们 已 经 有 了 标注 了 词类 标记 的 某 些 训练 数据 ， 并 且 从 这 些 
数据 我 们 仅仅 学 习 到 一 个 事实 : zzfish 可 能 的 标记 集 是 NN, JJ, NNS 和 
VB (zzfish 是 一 个 有 点 儿 像 fish 的 单词 ， 不 过 它 也 可 以 充当 形容 词 ) 。 
这 个 标注 模型 依赖 于 这 样 的 约束 ， 而 没有 做 进一步 的 假设 ， 那 么 ， 这 
个 模型 是 什么 呢 ? 由 于 标记 必须 是 正确 的 标记 ， 因 而 我 们 有 


P(NN)+P(JJ)+P(NNS)+P(VB)=1 


由 于 我 们 没有 更 多 的 信息 ， 模 型 也 没有 做 超出 我 们 所 知 的 进一步 
的 假设 ， 该 模型 将 位 单 地 把 相等 的 概率 指派 给 这 些 单词 中 的 每 一 个 ， 
我 们 有 : 


NN JJ NNS VB NNP IN MD UH SYM VBG POS PRP CC CD ... 
14 14 14 1/4 0 0 0 0 0 0 0 0 0 0 


FER — TPIS "P, BTR ee E45 Ta) EAR] oP 
布 ， 在 第 二 个 例子 中 ， 我 们 想 要 的 是 在 4 个 词类 上 的 无 差别 的 分 布 。 已 
经 证 明 ， 在 各 种 可 能 的 分 布 中 ， 等 概率 分 布 具 有 最 大 业 (maxmumu 
entropy) 。 我 们 知道 ， 随 机 变量 x 分 布 的 炉 使 用 如 下 公式 计算 : 


H x)=- » PC x ) log, PC x ) 


在 等 概率 分 布 中 ， 所 有 的 随机 变量 的 值 都 具有 相同 的 概率 ， 因 而 
等 概率 分 布 的 炉 要 高 于 那些 具有 更 多 信息 的 非 等 概率 分 布 的 炉 。 
此 ， 在 所 有 具有 4 个 变量 的 分 布 中 ，{1/4, 1/4, 1/4, 1/4} 这 个 分 布 具 有 最 
大 炉 。 为 了 得 到 直观 的 感受 ， 你 可 以 使 用 炉 的 公式 来 计算 其 他 分 布 的 
Wi, EGR, PRAT LAYS (1/4, 1/2, 1/8, V/8}3X SATA, GRE, MR 
Ay ARE, ETE S D EES oT eM 。 


我 们 的 直观 感受 是 ， 在 给 MaxEnt 建 模 的 时 候 ， 这 个 概率 模型 将 根 
据 我 们 给 它 的 一 些 约束 来 建立 ， 但 是 ， 除 了 这 些 约束 之 外 ， 它 要 遵 
守 “Occam 弟 刀 ” 的 原则 : “如 无 必要 ， 勿 增 实体 ”( ‘Plurality should 
never be proposed unless needed') ， 把 可 能 的 假设 减低 到 最 少 。 


让 我 们 把 更 多 的 约束 加 到 词类 标注 的 例子 中 去 。 假 设 我 们 查找 已 
经 标注 的 训练 数据 并 且 注 意 到 zzfish 在 10 次 中 有 8 次 被 标注 为 普通 名 词 
类 ， 不 是 标注 为 NN， 束 是 标注 为 NNS。 这 样 我 我 们 就 可 以 给 zzfish 加 
上 “word is zzfish and t; = NN ort; = NNS” 这 样 的 特征 。 这 时 ， 我 们 就 会 
想到 修正 原来 的 分 布 ， 把 8/10 的 概率 量 分 派 给 名 词 ， 现 在 我 们 有 了 两 
个 约束 : 


P(NN) + P(JJ) + P(NNS) + P(VB)= 1 
P(word is zzfish and t; = NN or t; = NNS) = 8/10 


d | ANH oH i, WARIS VBE SAA, DRBENN 
与 NNS 是 等 概率 的 ， 这 时 ， 我 们 有 : 


NN JJ NNS VB NNP ss: 
4/10 1/710 4/10 1/10 0 


现在 我 们 假定 ， 关 于 单词 zzfish， 我 们 没有 更 多 的 信息 了 。 不 过 ， 
我 们 在 训练 数据 中 还 注意 到 ， 对 于 英语 的 所 有 单词 〈 不 仅仅 是 
zzfish) ， 在 20 个 单词 中 ,动词 (VB) 出 现 1 次 。 因 此 ， 现 在 我 们 还 有 
必要 针对 特征 6= VB， 增 加 这 样 的 约束 ， 于 是 我 们 得 到 3 个 约束 : 


P(NN) + P(JJ) + P(NNS) + P(VB)= 1 
P(word is zzfish and t; = NN or t; = NNS) = 8/10 
P(VB) = 1/20 


ETGXRERUAUR, MERI AMS AM T : 
NN JJ NNS VB 


4/10 3/20 4/10 1720 
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征 的 方法 来 建立 分 布 。 每 一 个 特征 是 一 个 指示 函数 ， 这 个 指示 函数 从 
训练 的 观察 集合 中 抓 取 一 个 子 集 。 在 增加 特征 时 ， 要 特别 谍 慎 ， 要 精 
心 选择 特征 ， 一 定 要 注意 保持 炉 值 最 大 ， 如 果 没 有 必要 ， 切 勿 随便 增 
加 特征 ， 遵 守 “Occam 剃 刀 ” 的 原则 : “WTC, DPRK” ^ EAI 
Was, EREZZE, WAM ORE; SPR TUBE 
征 ， 我 们 在 总 的 分 布 中 增加 一 个 约束 ， 从 而 使 得 我 们 对 于 这 个 子 集 的 
分 布 与 我 们 在 训练 数据 中 看 到 的 经 验 性 的 分 布 是 匹配 的 尽量 保持 炳 值 
最 大 。 上 所 以 ， 我 们 要 选择 与 这 些 约束 一 致 的 最 大 精 分 布 。 


我 们 再 以 英汉 翻译 为 例 来 说 明 最 大 精 的 原理 。 


在 英汉 机 妖 翻 译 中 ， 对 于 英语 中 的 “take”， 对 应 汉语 的 翻译 有 如 
下 7 种 : 


(t1) “HUE”: The mother takes her child by the hand. $4 HUE fZ 
eH 


(t2) “EE”: Take the book home JU -B £& EIR e 
(t3) “F”: to take a bus to work. 乘坐 公共 汽车 上 班 。 


(t4) “=”: Take your temperature. 量 一 量 你 的 体温 。 


a 


(t5) “42”: The suitcase wouldn't take another thing. 这 个 衣 箱 不 能 


装 别 的 东西 了 。 

(t6) “花费 ”: It takes a lot of money to buy a house. 3: — Br ES T Z 
4E KERR © 

(t7) “Hf ` ME”: How do you take this passage? 你 怎么 理解 这 
段 话 ? 

假设 对 于 所 有 的 英文 ”take”"， 只 有 这 7 种 翻译 。 则 存在 着 如 下 限 
DUE 

P(t, [x)*p(t; |x)*p(ts [x)*...*p(t;|x)-1 (5) 

EK, p(t, |x)(1<i<7) 表 示 在 一 个 含有 单词 take 的 英文 句子 中 ，take 
翻译 成 t 的 概率 。 在 这 个 限制 下 ， 对 每 种 翻译 赋予 均等 一 致 的 概率 
为 : p(t, O=p(t |X)=...=p(ty |x)=1/17。 但 是 对 于 “take”， 我 们 通过 统计 发 
现 它 的 前 两 种 翻译 (t1) 和 (t2) 是 常见 的 ， 假 设 满足 如 下 条 件 


P(ty x)*p(to |x) = 2/5 (6) 


在 (1) 和 (2) 共 同 限制 下 ， 分 配给 每 个 翻译 的 概率 分 布 形 式 有 很 多 。 但 是 
最 一 致 的 分 布 为 : 


P(t, |X)=p(ty |x)=1/5 
p(ts [X)=p(ty |x)=p(ts |x)-p(tg [X)=p(tz [x)-3/5 
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但 是 上 面 的 限制 ， 都 没有 考虑 上 下 文 的 环境 ， 翻 译 效 果 不 好 。 
此 我 们 引入 特征 。 例 如 ， 瑞 文 *take” 翻 译 为 “乘坐 ”的 概率 很 小 ， 但 是 
当 “take” 后 面 跟 一 个 交通 工具 的 名 词 “bus”* 时 ， 它 翻译 成 “ 乘 从 ”的 概率 
就 变 得 非常 大 。 为 了 表示 take 跟 有 “bus” 时 翻译 成 < 乘坐 > 的 事件 ， 我 们 
引入 二 值 钞 数 : 


Xu) E if y =" FEA" and^next word = bus 

X 表 示 上 和 下文 环 境 ， 这 里 看 以 看 作 是 台 有 单词 take 的 一 个 英文 短 

语 ， 而 y 代 表 中 文 输出 ， 它 是 与 英文 *take”" 对 应 的 中 文 翻 译 。Anext 

(x) 看 作 是 上 下 文 环境 x 的 一 个 函数 ， 表 示 x 中 跟 在 单词 take 后 的 一 个 

单词 为 "bus”。 这 样 一 个 函数 称 作 一 个 特征 函数 ， 或 者 徐 称 一 个 特征 。 

引入 诸如 公式 (7) 中 的 特征 ， 它 们 对 概率 分 布 模型 加 以 限制 ， 求 在 限 
制 条 件 下 具有 最 一 致 分 布 的 模型 ， 从 而 保证 该 模型 的 精 值 最 大 。 


a. 


AMT RP. JB EDR, PMMA KH et A oT eS Fe 
征 的 方法 来 建立 分 布 。 每 一 个 特征 是 一 个 指示 函数 ， 这 个 指示 函数 从 
训练 的 观察 集合 中 抓 取 一 个 子 集 。 对 于 每 一 个 特征 ， 我 们 在 总 的 分 布 
中 增加 一 个 约束 ， 从 而 表示 我 们 对 于 这 个 子 集 的 分 布 与 我 们 在 训练 数 
据 中 看 到 的 经 验 性 的 分 布 是 匹配 的 。 所 以 ， 我 们 要 选择 与 这 些 约束 一 
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优化 问题 如 下 : 


为 了 从 所 容许 的 概率 分 布 的 集合 c 中 筛选 出 一 个 模型 ， 就 要 选择 具 

有 最 大 粹 H (p) 的 模型 p* ec: 
p -argmaxH(p) 

现在 我 们 可 以 做 出 一 个 重要 的 结论 。Berger 等 (1996) 证 明 ， 这 
个 最 优化 问题 的 解 恰恰 就 是 多 元 逻辑 回归 的 概率 分 布 ， 它 的 权 值 w 把 
训练 数据 的 似 然 度 最 大 化 ! 因此 ， 当 根据 最 大 似 然 度 的 标准 来 训练 
IY, Arce ee UHR FR ROA BE P TC SCARE 238, i SR A 
布 服 从 于 来 自 特征 函数 的 约束 。 
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我 们 在 讨论 MaxEnt 的 时 候 曾 经 指出 ， 基 本 的 MaxEnt 模 型 本 身 还 不 
是 一 个 序列 分 类 器 。 它 的 作用 是 把 一 个 单独 的 观察 分 类 到 离散 类 别 集 
合 的 一 个 成 分 中 去 ， 例 如 ， 在 文本 分 类 中 ， 在 匿名 文本 的 各 个 可 能 的 
作者 之 间 进 行 选 择 ， 或 者 把 一 个 电子 邮件 归 入 到 垃圾 邮件 中 去 ， 或 者 
判定 一 个 圆 点 号 是 不 是 处 于 句子 的 末尾 等 等 。 


ME, RMA D RAS RAT RA (maximum entropy 
Markov model， 人 简称 MEMM) ， 它 是 基本 MaxEnt 分 类 器 的 扩充 ， 所 


以 ， 它 能 够 用 来 把 一 个 类 别 指派 给 一 个 序列 中 的 每 一 个 成 分 ， 就 像 我 
们 在 HMM 中 所 做 的 那样 。 


为 什么 我 们 要 把 序列 分 类 器 建立 在 MaxEnt 的 基础 之 上 呢 ? 这 种 分 
类 器 是 不 是 比 HMM 好 一 些 呢 ? 


我 们 来 考虑 词性 标注 中 的 HMM 方 法 。HMM 标 注 模型 是 建立 在 形 
式 为 转移 概率 P(tag | tag) 和 发 射 概率 P(word | tag) 的 基础 之 上 的 。 这 意 
味 着 ， 如 采 我 们 想 把 某 种 知识 源 包 含 到 标注 的 过 程 之 中 ， 我 们 必须 找 
到 一 种 方法 对 在 这 种 知识 进行 编码 ， 把 它 归 入 到 这 两 种 概率 中 某 一 种 
概率 中 去 。 但 是 ， 很 多 知识 源 很 难 适 应 于 这 样 的 模型 。 例 如 ， 我 们 知 
道 ， 为 了 标注 未 知 词 ， 用 得 着 的 特征 有 大 写 ， 是 否 出 现 连 字 和 人 符 ， 是 人 否 
是 词尾 等 等 ， 可 是 ， 没 有 一 种 简易 的 方法 能 够 把 如 P(capitalization | 
tag), P(hyphen | tag), P(suffix | tag) 之 类 的 概率 纳入 到 具有 HMM 风 格 的 
模型 法 中 去 。 


我 们 在 前 面 一 节 中 ， 当 讨论 MaxEnt 在 词类 标注 中 的 应 用 的 时 候 ， 
我 们 已 经 有 了 部 分 的 直观 感受 。 词 类 标注 肯定 是 一 个 序列 标注 的 问 
题 ， 但 是 ， 我 们 仅仅 讨论 了 如 何 把 词类 标记 指派 到 一 个 独立 的 单词 上 
Ete 


我 们 怎样 才能 处 理 这 种 单独 的 局 部 分 类 器 ， 并 且 把 它 转变 为 通用 
的 序列 标注 器 UU? 在 给 每 一 个 单词 进行 分 类 的 时 候 ， 可 以 依靠 当前 词 
的 特征 来 分 类 ， 也 可 以 依靠 周围 单词 的 特征 来 分 类 ， 还 可 以 依靠 来 目 
前 面 一 个 单词 的 分 类 右 的 输出 来 分 类 。 例 如 ， 最 简单 的 方法 是 从 左 问 
右 运 行 我 们 的 局 部 分 类 器 ， 首 先 对 句子 中 的 第 一 个 单词 进行 便 分 类 ， 
然后 对 第 二 个 单词 进行 分 类 ， 如 此 等 等 。 在 给 每 一 个 单词 分 类 的 时 
候 ， 我 们 可 以 依靠 来 自前 面 一 个 单词 的 分 类 絮 的 输出 ， 并 把 这 种 输出 


作为 一 个 特征 。 例 如 ， 我 们 看 到 ， 在 给 单词 race 标 注 时 ， 前 面 一 个 单 
词 的 标记 是 一 个 很 有 用 的 特征 ;前 面 一 个 单词 的 标记 TO 是 race 标 注 为 
VB 的 最 好 指示 ， 前 面 一 个 单词 的 标记 为 DT 是 race 标 注 为 NN 的 最 好 指 
示 。 这 种 目 左 辣 右 滑动 窗口 的 方法 取得 了 令 人 惊讶 的 好 结 采 ， 具 有 广 
阔 的 应 用 范围 。 


当然 我 们 可 以 使 用 这 样 的 方法 进行 词类 标注 ， 不 过 ， 这 种 简单 的 
BARMAN Tt Ree BMRA: 当 分 类 需 移 动 到 下 一 个 单词 之 前 ， 它 
必须 对 于 分 析 过 的 每 一 个 单词 做 出 一 个 硬性 的 判定 。 这 意味 着 ， 这 样 
的 分 类 絮 不 能 利用 来 目 后 面 单词 的 信息 告知 计算 机 在 前 面 已 经 做 出 的 
决定 。 但 和 是， 我 们 知道 ， 在 隐 马 尔 可 夫 模 型 中 的 情况 与 此 相反 ， 我 们 
不 必 在 每 一 个 单词 的 地 方 都 做 出 硬性 的 决定 ， 我 们 可 以 使 用 Viterbi 解 
码 算 法 来 发 现 那 些 在 整个 句子 中 最 优 的 词类 标注 序列 。 


mA SK ARAL (或 MEMM) 把 Viterbi 算 法 与 MaxEnt 紧 密 地 
结合 起 来 ， 使 得 我 们 可 以 达到 同样 的 效果 ， 发 挥 隐 马 尔 可 夫 模 型 的 长 
处 。 


让 我 们 再 以 词性 标注 为 了 例子 ， 来 看 一 看 MEMM 是 怎样 工作 的 。 


如 采 我 们 把 MEMM 与 HMM 相 比较 ， 束 很 容易 理解 MEMM。 我 们 
记得 ， 使 用 HMM 来 给 概率 最 大 的 词类 标记 序列 建 模 的 时 候 ， 我 们 依 徘 
贝 叶 斯 规则 来 计算 P(WIT)P(T)， 而 不 是 直接 计算 P(TIW): 

T = argmax/( TI W) 
= argmaxP( WI T) T) 
= argmax [r word, | tag, ) I] PC tag, | tag,_, ) 


我 们 曾经 把 HMM 描 述 为 一 个 生成 模型 ， 它 能 把 似 然 度 P(WIT) 最 优 
化 ， 并 且 ， 我 们 能 够 把 这 个 似 然 度 P(WITD) 与 先 验 概 率 P(T) 结 合 起 来 估 
计 后 验 概率 P(TIW)。 


与 此 相 比 ， 在 MEMM 中 ， 我 们 是 直接 计算 后 验 概率 P(TIW) 的 。 
为 我 们 直接 训练 模型 在 各 种 可 能 的 标记 序列 中 进行 分 辨 所以， 我 们 
把 MEMM 叫 做 分 辨 模型 (discriminative model) ， 而 不 叫做 生成 模 
型 。 在 MEMM 中 ， 我 们 把 概率 拆 分 了 : 


E argmax/X TI W) 


argmax [] 7 tag. | word, ,tag, , ) 


因此 ， 在 MEMM 中 ， 我 们 不 使 用 似 然 度 和 先 验 概率 分 离 的 模型 ， 
而 是 训练 一 个 单独 的 概率 模型 来 估计 Pttag | word, , tag, ) * 我们 将 使 
用 MaxEnt 来 处 理 后 面 这 一 块 ， 对 于 给 定 的 前 面 的 标记 (tag ; ) 、 被 观 
察 的 单词 (word, ) 以 及 我 们 想 加 进去 的 任何 其 他 的 特征 ， 来 估计 每 一 
个 局 部 标记 (tagi) 的 概率 。 


在 下 图 中 ， 我 们 可 以 对 于 词性 标注 工作 中 的 HMM 和 MEMM 进 行 
对 比 ， 获 得 直观 的 感受 ， 这 个 图 重复 了 HMM 模 型 ， 并 有 旦 加 上 了 一 个 新 
的 模型 MEMM。 注 意 ，HMM 模 型 包括 对 于 每 一 个 转移 和 每 一 个 观察 
都 给 出 了 明确 的 概率 ， 而 在 MEMM 中 ， 对 于 每 一 个 隐藏 的 状态 ， 只 给 
出 一 个 概率 估计 ， 它 就 是 在 给 定 的 前 面 标 记 和 观察 的 情况 下 ， 下 面 一 
个 标记 的 概率 。 


图 3.35 强 调 了 在 图 3.34 中 没有 表示 出 来 的 MEMM 优 越 于 HMM 的 另 
一 个 长 处 ; 与 HMM 不 同 ，MEMM 可 以 使 用 输入 观察 中 的 任何 有 用 的 
特征 作为 条 件 。 而 在 HMM 中 ， 这 是 不 可 能 的 ， 因 为 HMM 是 基于 似 然 


度 的 ， 所 以 它 必 须 计算 观察 中 的 每 一 个 特征 的 似 然 度 。 


000000 
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图 3.34 ”表示 在 Secretariat 开 头 的 句子 中 ， 计 算 正 确 的 标记 序列 的 概率 的 HMM (上 图 


) 和 


MEMM (FR) 。 每 一 个 弧 都 与 一 个 概率 相关 联 ，HMM 对 于 观察 似 然 度 和 先 验 概 率 分 别 计 


单独 的 概率 画 数 。 
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更 用 输入 中 的 更 多 的 特征 作为 条 件 ， 例 如 ， 大 写 ， 形 态 特征 《以 -s 结 尾 ， 或 者 以 -ed 


算 两 个 不 同 的 概率 ， 而 MEMM 以 前 面 的 状态 和 当前 的 观察 为 条 件 ， 在 每 一 个 状态 只 计算 一 个 


图 3.35 ”在 上 图 描述 的 基础 上 进一步 提升 的 用 于 词性 标注 的 MEMM， 图 中 说 明 ，MEMM 可 以 
HE), 


前 面 的 单词 ， 前 面 的 标记 ， 等 等 。 图 中 ， 我 们 显示 了 在 对 输入 句子 中 的 前 三 个 单词 进行 判断 


时 的 一 些 潜 在 的 附加 特征 ， 使 用 了 不 同 风 格 的 线条 来 表示 这 些 附 加 特征 的 差别 。 


更 加 形式 地 说 ， 在 HMM 中 ， 我 们 要 计算 给 定 观 察 的 状态 序列 的 概 
率 如 下 : 


RQI10)= [Po | qi) x [] PCa, | doad 
i=l izl 
在 MEMM 中 ， 我 们 要 计算 给 定 观察 的 状态 序列 的 概率 如 下 : 
PCQI1 0) = [r di! qi-1>0; ) 
i=] 


不 过 ， 在 实际 应 用 中 ，MEMM 可 以 使 用 比 HMM 更 多 的 特征 作为 
和 条件， 所以， 一 般 地 说 ， 我 们 在 公式 Ko o = [rata 的 右手 边 可 
以 使 用 更 多 的 因子 作为 条 件 。 


为 了 估计 从 状态 q 到 产生 观察 0 的 状态 q 的 一 个 单独 的 转移 概率 ， 
我 们 建立 了 如 下 的 MaxEnt 模 型 : 


PC 91 q',o) = zl Y w; f o.q)) 


5. 基于 转换 的 目 动 标注 


基于 转换 的 标注 有 时 又 叫做 布 里 尔 标注 (Brill tagging) ， 它 是 布 
里 尔 1995 年 提出 的 在 机 器 学 习 中 的 基于 转换 的 学 习 (Transformation- 
Based Learning， 简 称 TBL) 方法 的 一 个 实例 ， 并 且 它 又 从 基于 规则 的 
标注 算法 和 基于 统计 的 标注 算法 中 得 到 局 示 。 


与 基于 规则 的 标注 算法 相似 ，TBL 征 基于 规则 的 ， 它 要 指出 ， 什 
么 样 的 标记 可 以 指派 给 什么 样 的 单词 。 但 是 ，TBL 又 与 基于 统计 的 标 
注 算 法 相似 ，TBL 走 一 种 机 器 学 习 技 术 ， 其 中 规则 是 目 动 地 从 数据 推 
导出 来 的 。 与 某 些 但 不 是 全 部 的 HMM 标 注 算法 相似 ，TBL 是 一 种 有 指 
导 的 学 习 技 术 ， 它 在 标注 之 前 ， 需 要 有 一 个 训练 语料库 。 


为 了 理解 TBL 的 整个 构架 ， 我 们 可 以 把 TBL 方 法 和 某 种 绘画 的 方 
法 做 一 个 类 比 。 


我 们 想象 一 位 女 亏 术 家 要 以 监 天 的 育 景 画 一 间 日 色 的 房子 ， 房 子 
上 有 绿色 的 又 烦 。 假 定 这 幅 画 的 大 部 分 都 是 天 空 ， 那 么 ， 这 幅 画 的 大 
部 分 都 应 该 是 蓝 色 的 。 开 始 时 ， 这 位 女 乙 术 家 使 用 很 粗 的 画笔 把 整 块 
油画 布 涂 成 政 色 。 然 后 ， 她 用 较 小 的 日 色 画 笔 来 调整 画面 上 的 东西 ， 
并 且 把 整个 房子 涂 上 日 色 。 这 时 ， 她 只 古 给 整个 房子 着色 ， 用 不 着 担 
心 柠 色 的 屋顶 、 蓝 色 的 窗子 或 者 绿色 的 山墙 。 然 后 ， 她 才 取 一 只 更 小 
的 柠 色 画笔 来 给 屋顶 着 色 。 接 着 ， 她 把 蓝 色 的 闫 料 葡 到 一 只 小 画笔 
上 ， 在 谷 仓 上 画 出 蓝 色 的 窗子 。 最 后 ， 她 拿 一 只 很 细 的 绿色 画笔 给 山 
T (LAS UIT ° 
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个 区 域 分 别 着 色 ， 这 些 区 域 是 要 以 后 重新 着 色 的 。 下 一 层 的 颜色 占 油 
画布 的 区 域 较 小 ， 所 造成 的 < 错误 "也 比较 小 。 每 一 个 新 的 层 使 用 的 画 
笔 越 来 越 细 ， 它 们 修改 图 画 的 区 域 也 越 来 越 小 ， 因 而 产生 的 错误 也 越 
来 越 小 。 


TBL 所 用 的 方法 与 这 位 女 画 家 的 方法 在 某 种 意义 上 是 相同 的 。 
TBL 算 法 有 一 套 标注 规则 。 语 料 库 首先 用 比较 宽 的 规则 来 标注 ， 这 些 
规则 也 就 十 在 大 多 数 场合 使 用 的 规则 。 然 后 ， 再 选择 稍微 特殊 的 规则 


来 修改 原来 的 某 些 标记 。 接 着 ， 再 使 用 更 加 罕 的 规则 来 修改 数量 更 少 
的 标记 (其 中 某 些 标记 可 能 是 前 面 已 经 修改 过 的 标记 ) 。 


让 我 们 来 看 一 看 布 里 尔 在 1995 年 的 标注 算法 使 用 的 一 些 规则 。 在 
使 用 这 些 规则 之 前 ， 标 注 系 统 已 经 给 每 一 个 单词 标 上 了 最 可 能 的 标 
记 。 我 们 可 以 从 标注 语料库 中 得 到 这 些 最 可 能 的 标记 。 人 例如， 布衣 请 
料 库 中 ，race 最 可 能 标注 为 名 词 : 


P(NNlrace) = 0.98 
P(V B|race) = 0.02 


这 意味 着 我 们 在 上 面 看 到 的 天 于 race 的 两 个 例子 中 ， 两 个 race 的 编 
码 都 是 NN。 在 第 一 种 情况 下 ， 这 十 错误 的 ， 因 为 NN 十 不 正确 的 标 
id: 


is/VBZ expected/VBN to/TO race/NN tomorrow/NN 
在 第 二 种 情况 下 ， 这 个 race 被 正确 地 标注 为 NN: 
the/DT race/NN for/IN outer/JJ space/NN 


在 选择 了 最 可 能 的 标记 之 后 ， 布 里 尔 标注 算法 应 用 它 的 转换 规 
则 。 当 应 用 转换 规则 时 ， 布 里 尔 的 标注 系统 学 习 到 一 个 正好 应 用 于 改 
正 race 的 错误 标记 的 规则 ， 这 条 规则 是 : 


Change NN to VB when previous tag is TO 
(当前 面 标记 为 TO 时 ， 把 NN 改变 为 VB) 


这 条 规则 正好 满足 条 件 ， 它 将 把 race/NN 改 变 成 race/VB， 因 为 race 
前 面 是 to/TO: 


expected/V BN to/TO race/NN  expected/VBN to/TO race/VB 
布 里 尔 的 TBL 算 法 包括 三 个 阶段 。 
在 第 一 个 阶段 ， 它 首先 把 每 一 个 单词 标 上 最 可 能 的 标记 。 


在 第 二 个 阶段 ， 它 检查 每 一 个 可 能 的 转换 ， 并 且 移 择 那 个 能 够 最 
大 程度 地 改善 标注 的 转换 。 


在 第 三 个 阶段 ， 根 据 这 个 规则 ， 对 数据 进行 重新 标注 。 


后 面 的 两 个 阶段 重复 进行 ， 直 到 达到 某 个 标准 ， 使 得 不 能 再 继续 
充分 地 改善 前 一 轮 的 结果 为 止 。 注 意 ， 在 第 二 个 阶段 ， 要 求 TBL 知 道 
每 一 个 单词 的 正确 标记 是 什么 ， 这 意味 着 TBL 是 一 种 有 指导 的 学 习 算 
法 。 


TBL 过 程 的 输出 是 一 个 转换 的 有 序 表 ; 这 些 转换 组 成 一 个 “标注 过 
程 ”， 并 可 应 用 于 新 的 语料库 。 从 原则 上 说 ， 可 能 的 转换 这 个 集合 是 无 
限 的 ， 因 为 我 们 能 够 想象 这 样 的 转换 “transform NN to VB if the 
previous word was ‘IBM’ and the word ‘the’ occurs between 17 and 158 
words before that”〈“ 如 果 前 面 一 个 单词 是 'IBM'， 并 且 单 词 'he' 出 现在 
前 面 17 到 158 个 单词 之 间 ， 则 把 NN 转 换 成 VB”) 。 但 是 ，TBL 需 要 考 
虑 每 一 个 可 能 的 转换 ， 以 便 找 出 在 整个 算法 的 每 一 轮 中 最 好 的 转换 。 
这 样 ， 这 种 算法 就 需要 一 种 办 法 来 限制 这 个 转换 集合 。 这 个 办 法 惑 是 
设计 一 个 叫做 “模板 ”(templates) 的 小 集合 ， 这 个 模板 也 就 是 转换 的 
摘要 。 每 一 个 可 容许 的 转换 就 是 模板 的 一 个 实例 。 图 3.36 列 出 了 Brill 
的 模板 集合 。 


The preceding ( following ) word is tagged z. 

The word two before ( after ) is tagged z. 

One of the two preceding ( following ) words is tagged z. 
One of the three preceding ( following ) words is tagged z. 


The preceding word is tagged z and the following word is tagged w. 


The preceding ( following ) word is tagged z and the word 


two before ( after ) is tagged w. 


图 3.36 ”Brill 的 模板 。 每 条 规则 开始 都 是 “Change tag a to tag b when...”(“ 当 ... 时 ， 把 标记 a 改 
变 为 标记 b”) 。 变 量 a, b, z 和 w 在 词类 范围 内 取 值 。 


在 实际 中 ， 还 有 一 些 办 法 可 以 提高 算法 的 效率 。 例 如 ， 模 板 和 实 
例 转换 可 以 采用 数据 驱动 的 方式 来 进行 ， 如 果 一 个 转换 改善 了 某 一 个 
单词 的 标记 ， 那 么 ， 就 可 以 把 它 提出 来 作为 转换 的 实例 。 在 训练 语 料 
库 中 使 用 潜在 可 能 的 转换 给 单词 预先 做 索引 ， 可 以 明显 地 提高 搜索 的 
效率 。 罗 歇 (Roche) 和 沙 贝斯 (Schabes) 在 1997 年 说 明 ， 如 果 把 每 
一 个 规则 转 成 一 个 有 限 状 态 转 录 机 并 且 把 所 有 的 转录 机 组 合 起 来 ， 就 
可 以 提高 标注 系统 的 速度 。 


图 3.37 说 明了 使 用 布 里 尔 的 原来 的 标注 系统 学 习 到 的 一 些 规 则 。 


Change tags 


Example 
Condition 


NN | VB Previous tag is TO to/TO race/NN—VB 

VBP | VB | One of the previous 3 tags is MD might/ MD vanish/ VBP—VB 
NN | VB One of the previous 2 tags is MD | might/MD not reply/NN—VB 
VB NN One of the previous 2 tags is DT 
VBD | VBN | One of the previous 3 tags is VBZ 
图 3.37 布 里 尔 标注 系统 中 头 20 条 非 词汇 化 的 转换 中 的 部 分 内 容 


Un A LU N 一 


为 了 改进 计算 模型 ， 我 们 需要 分 析 并 了 解 错误 发 生 的 情况 。 在 像 
词类 标注 这 样 的 分 类 模式 中 ， 错 误 分 析 一 般 是 使 用 "含混 算 


LE" (confusion matrix) ， 也 叫做 “ 列 联 表 ”(contingency table) 来 进行 
时 。 


含有 N 种 方式 的 分 类 任务 的 含混 矩阵 是 一 个 N 对 N 的 矩阵 表 ， 其 中 
的 单元 (x,y) 包含 正确 分 类 项 目 x 被 模型 y 分 类 的 次 数 。 


例如 ， 下 面 的 表 是 弗 兰 次 (Franz) 在 1996 年 的 标注 实验 中 的 含混 
和 窍 阵 的 一 部 分 。 这 个 含混 矩阵 的 “ 行 ?表示 正确 的 标记 ， 它 的 “ 列 ” 表 示 
标注 系统 给 出 的 假定 的 标记 ， 仿 混和 矩阵 的 每 一 个 单元 表示 相应 的 x 和 y 
总 的 标注 错误 的 百分比 。 例 如 ，4.4% 的 总 错误 表示 这 个 错误 是 由 于 把 
VBN 错 误 地 标注 为 VBD3 引 起 的 。 表 中 营 见 的 错误 都 用 黑体 字母 标 出 。 


图 3.38” 舍 混 矩阵 


上 面 的 含混 矩阵 以 及 有 关 的 错误 分 析 说 明 ， 当 前 标注 系统 面临 的 
主要 问题 是 : 


1.NN-NNP-JJ 错 误 : 这 是 名 词 前 成 分 中 最 难 区 分 的 错误 。 正 确 地 
区 分 出 名 词 对 于 信息 检索 和 机 器 翻译 都 是 至 关 重 要 的 © 

2.RP-RB-IN 错 误 : 这 些 标记 都 以 卫星 序列 的 形式 直接 出 现在 动词 
后 面 。 


3. VBD-VBN-JJ 错 误 : 在 局 部 分 析 中 (例如 ， 通 过 过 去 分 词 发 现 
被 动 形式 ) ， 以 及 在 名 词 短语 边界 的 正确 标注 中 ， 区 分 这 些 标 记 是 非 
常 重要 的 。 


1992 年 ， 清 华 大 学 设计 了 基于 统计 方法 的 汉语 词性 自动 标注 系 
统 。 该 系统 采用 一 元 语法 和 二 元 语法 相 结合 的 统计 模型 和 108 个 标记 ， 
对 汉语 真实 文本 进行 自动 标注 的 正确 率 达 到 了 96.8%. 该 系统 在 SUN 
4/75 工 作 站 上 的 平均 标注 速度 为 每 秒 钟 175 词 次 。 该 系统 所 依据 的 原始 
训练 集 包 含 10 万 个 汉字 ， 内 容 包括 新 闻 、 科 普 、 科 技 、 军 事 和 经 济 法 
规 等 五 类 文本 。 他 们 利用 统计 方法 取得 了 自动 词性 标注 的 成 功 ， 这 充 
分 说 明了 ， 基 于 统计 的 方法 是 行 之 有 效 的 ， 它 至 少 是 基于 规则 的 方法 
的 一 个 重要 的 补充 。 


基于 规则 的 方法 ， 其 优点 是 可 以 不 必 事 多 建立 一 个 语料库 ， 研 究 
者 只 要 与 语言 学 家 合作 ， 将 大 量 现成 的 语言 学 知识 形式 化 。 因 此 ， 这 
种 方法 可 以 方便 而 及 时 地 利用 语言 学 研究 的 最 新 成 采 。 由 于 基于 规则 
的 方法 所 搞 述 的 大 部 分 知识 都 是 语言 学 家 多 年 的 研究 成 采 ， 又 经 过 了 
大 量 语言 事实 的 检验 ， 因 此 ， 这 种 方法 具有 和 较 强 的 概括 性 ， 也 比较 容 
易 推 广 到 一 些 尚 未 涉及 的 领域 。 但 是 ， 基 于 规则 的 方法 所 描述 的 语言 
知识 的 颗粒 度 太 大 ， 难 以 处 理 复 杂 的 、 不 规则 的 信息 ， 等 别 是 当 规则 
数目 增多 时 ， 很 难 将 规则 全 面 地 歼 兰 某 个 领域 的 各 种 语言 现象 。 


基于 统计 的 方法 则 需要 事先 建立 一 个 语料库 ， 其 全 部 知识 都 是 由 
计算 机 通过 统计 处 理 大 规模 真实 文本 而 目 动 获取 的 ， 具 有 很 好 的 一 至 
性 和 很 高 的 覆 次 率 ， 并 且 可 以 将 一 些 不 确定 的 知识 定量 化 。 但 是 ， 这 
种 方法 获取 知识 的 机 制 与 语言 学 研究 中 获取 知识 的 机 制 完 全 不 同 ， 因 
而 所 获取 的 知识 很 难 与 现 有 的 语言 学 成 采 相 结合 ， 也 很 难 利用 语言 学 
研究 的 成 果 来 改进 通过 统计 方法 所 获取 的 知识 。 


如 果 我 们 能 以 统计 方法 作为 获取 知识 的 基本 途径 ， 依 据 语言 学 知 
识 对 所 获取 的 知识 加 以 取舍， 并 增加 一 些 统计 方法 没有 得 到 的 、 而 又 
经 过 语言 学 家 证 明 是 行 之 有 效 的、 正确 的 语言 规则 ， 把 基于 规则 的 方 
法 和 基于 统计 的 方法 结合 起 来 ， 一 方面 通过 语言 学 知识 的 引入 ， 可 以 
消除 由 统计 方法 所 得 到 的 一 些 不 合乎 语言 学 规则 的 信息 ， 又 可 以 使 由 
统计 方法 所 建立 的 语言 模型 能 够 很 方便 地 与 现 有 的 语言 学 方法 相 结 
合 ， 使 之 互相 补充 ， 相 得 荔 朝 ; 另 一 方面 ， 由 于 许多 语言 知识 来 目 大 
规模 的 真实 文本 ， 可 以 覆盖 几乎 所 有 的 语言 现象 ， 这 样 ， 便 能 够 克服 
语言 学 家 总 结语 言 规 则 时 的 片面 性 和 主观 性 ， 并 使 他 们 集中 精力 研究 
那些 最 常见 的 、 在 统计 意义 上 最 重要 的 语言 现象 。 基 于 规则 的 方法 与 
基于 统计 的 方法 的 结合 ， 必 有 定 会 进一步 推动 计算 语言 学 的 发 展 ， 布 里 
尔 的 TBL 算 法 在 这 方面 进行 了 有 成 效 的 探索 ， 值 得 我 们 关注 。 
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POR ”句法 目 动 处 理 


经 过 目 动 词法 分 析 ， 输 入 句子 中 的 每 一 个 词 都 被 赋予 了 来 自 机 器 
词典 中 的 各 种 信息 ， 对 于 汉语 书面 语 来 说 ， 每 个 词 都 从 连续 的 汉字 流 
中 被 切 分 出 来 ， 词 与 词 之 间 出 现 了 空 日 ， 并 且 都 赋予 了 来 目 机 器 词典 
中 的 各 种 信息 。 


但 是 ， 经 过 词法 分 析 之 后 ,句子 中 词 与 词 之 间 的 词法 天 系 ， 句 子 
中 词组 与 词组 之 间 的 结构 关系 ， 仍 然 是 不 清楚 的 。 为 此 ， 需 要 进行 句 
法 自动 处 理 (syntactical automatic processing) 。 


我 们 在 第 四 、 第 五 、 第 六 、 第 七 这 四 章 中 来 讲述 句法 自动 处 理 问 
题 ， 本 章 主 要 讲 递 归 转 移 网 络 、 扩 充 转 移 网 络 ， 并 介绍 儿 种 重要 的 剖 
析 技 术 ， 这 些 都 是 经 典 的 句法 目 动 分 析 方 法 。 


BT ”递归 转移 网 络 和 扩充 转移 
网 络 


语言 符号 所 构成 的 句子 是 无 穷 无 尽 的 ， 因 此 ， 我 们 不 可 能 枚 举 出 
一 种 语言 中 的 所 有 句子。 在 很 多 场合 ， 对 于 语言 中 某 一 长 度 的 有 限 的 
人 句子， 往往 可 以 采用 一 定 的 办 法 来 将 其 长 度 加 以 扩张 。 例 如 ， 下 面 的 
句子 在 英语 中 都 是 成 立 的 ， 它 们 之 间 是 逐次 扩张 而 成 的 。 


@The man chants. 


@The man who the woman sees chants. 
(这 个 妇女 看 到 的 这 个 男人 唱歌 。) 

GThe man who the woman who the girl sees sees chants. 
(这 个 姑娘 看 到 的 这 个 妇女 看 到 的 这 个 男人 唱歌 。) 


句子 @ 是 在 句子 四 的 man (BA) 上 加 了 了 WHO- 从句 who the 
woman sees 而 形成 的 ， 句 子 人 是 在 句子 @ 的 woman (妇女 ) 上 加 上 
WHO-A &]who the girl sees 而 形成 的 。 


我 们 可 以 在 句子 中 的 基础 上 ， 逐 次 加 上 任意 个 由 关系 词 who 引 入 
的 定语 从 句 ， 每 加 一 个 这 样 的 从 句 ， 就 构成 了 一 个 新 的 更 长 的 套 谷 句 
子 。 究 竟 能 够 加 多 少 个 由 关系 词 who 引 入 的 从 名， 只 与 说 话 人 的 记忆 
力 和 了 耐心 有 关 ， 而 与 语言 本 身 的 结构 无 天。 我 们 平时 之 所 以 很 少 说 这 
样 的 和 父 琶 句子 ， 征 因为 人 类 心理 的 短 时 记忆 的 跨度 是 有 限度 的 。 根 据 
心理 学 的 研究 ， 人 们 能 够 关注 到 的 事物 ， 短 时 间 内 同时 记 住 的 东西 ， 
以 及 思维 对 大 脑 中 同时 操纵 的 元 素 ， 都 不 会 超过 7 个 左右 (假定 为 
7+2) ， 所 以 ， 当 一 个 句子 中 的 成 分 项 目 超 过 7 个 左右 时 ， 人 们 就 会 感 
到 记忆 负担 过 重 而 不 愿意 说 出 这 样 的 句子 。 


英 格 维 (Yngve) 在 1960 年 曾经 提出 “句子 深度 假说 ” (sentence 
depth hypothesis) 。 英 格 维 把 人 们 在 构造 一 个 句子 时 需要 存储 的 最 多 
的 符号 数 叫做 “句子 深度 ” (the depth of sentence) ， 对 于 句子 深度 ， 他 
提出 如 下 的 “句子 深度 假说 ”: 


(a) 所 有 的 语言 都 有 一 个 建立 在 成 分 基础 上 的 语法 ; 


(b) 在 口语 中 实际 使 用 的 句子 具有 一 个 深度 ， 在 这 个 深度 不 能 超 
过 一 定 的 符号 数 ; 


(c) 这 个 符号 数 等 于 或 者 近似 地 等 于 人 们 直接 记忆 的 跨度 ， 在 心 
理学 上 假定 为 7+2:; 


(d) 一 切 语言 的 语法 会 采取 一 定 的 方法 来 限制 句子 的 结构 ， 使 得 
大 多 数 的 句子 不 能 超过 这 个 深度 。 电 | 
如 果 我 们 不 考虑 上 述 的 心理 学 因素 以 及 英 格 维 的 “句子 深度 假 
说 ”， 仅 从 语言 结构 本 吴 来 看 ， 我 们 在 英语 中 可 以 加 上 无 限 个 由 关系 词 
who 引 入 的 从 句 而 使 句子 始终 保持 成 立 性 。 


语言 符号 的 这 种 按 同 样 的 方式 不 断 扩张 的 性 质 ， 束 是 语言 符号 的 
递归 性 。 


HE 


汉语 中 的 定语 从 名 也 可 以 无 限 地 扩张 。 
例如 : 
QO) 我 知道 小 王 不 知道 这 件 事 


我 知道 小 张 知 道 小 王 不 知道 这 件 事 


(3 我 知道 小 李 知 道 小 张 知 道 小 王 不 知道 这 件 事 


句子 (3) 是 合乎 语法 的 ,但 是 由 于 其 中 的 成 分 项 目 已 经 超过 了 7 个 ， 
所 以 在 实际 的 语言 中 很 少 会 这 样 说 。 


上 有 述 的 英语 和 汉语 的 例子 ， 都 是 语言 符号 的 递归 性 在 句法 结构 方 
面 的 表现 。 


正 因 为 语言 符号 具有 递归 性 ， 类 别 相同 的 语法 结构 会 多 次 在 语言 
中 出 现 ， 我 们 束 可 以 把 语法 结构 的 加 以 抽象 化 ， 用 有 限 的 语法 结构 和 
规则 来 描述 无 限 的 、 千 变 万 化 的 句子 。 


递归 转移 网 络 (Recursive Transition Network， 简 称 RTN) 正 是 根 
据 语 言 符 号 的 这 种 递归 特性 提出 来 的 。 


如 果 我 们 有 下 列 的 英语 句子 : 

@John sees the house. 
(约翰 看 房子 。) 

Maria sings. 
(玛丽 亚 唱歌 。) 

@The table hits Jack. 
(EF All T ANGE ° ) 

@John sees that Maria sings. 
(约翰 看 玛丽 亚 唱歌 。) 

©The table that lacks a leg hits Jack. 


(bk T RRR TAE Y R e ) 


我 们 可 以 建立 如 下 的 有 限 状态 转移 网 络 来 识别 这 些 句子 。 


图 4.1 的 有 限 状 态 转移 网 络 中 ，WH 表 示 关 系 代 词 ， 如 who, which 
等 ，that 表 示 引 入 宾语 从 句 的 连接 词 that © 


图 4.1 有 限 状态 转移 网 络 


如 果 状 态 转移 的 顺序 是 : dg >q 了 qe ds >a, ， 则 可 识别 句子 


如 果 状 态 转移 的 顺序 是 : qo > dy 一 qr ， 则 可 识别 句子 2 ° 


如 采 状 态 转 移 的 顺序 是 : qo qd; qd» dg 了 qf ， 则 可 识别 句子 


如 果 状 态 转移 的 顺序 是 : qu do 一 qe ^q; 了 qe 了 qr ， 则 可 识别 
FIFO » 

如 有 果 状 态 转 移 的 顺序 是 : qo qd; ds ^d4 了 ds ^d ^de 了 qf， 
则 可 识别 句子 (3)。 


可 以 看 出 ， 识 别 这 五 个 句子 的 有 限 状 态 转 移 网 络 是 非常 复杂 的 。 
如 有 果 我 们 要 识别 更 复 洒 的 句子 ， 那 么 ， 有 限 状态 网 络 还 要 更 为 复杂 ， 
如 果 我 们 要 识别 一 本 书 中 的 全 部 句子 ， 那 么 ， 有 限 状态 转移 网 络 束 不 
知 有 多 么 复杂 了 。 


然而 ， 语 言 符号 具有 递归 性 ， 同 样 的 结构 在 语言 中 可 以 重复 地 出 
现 多 次 。 在 图 3.1 的 有 限 状态 转移 网 络 中 ， 状 态 qo ~ qi > qo 组 成 的 子 
网 络 与 状态 qe > dg > qe 组 成 的 子 网 络 十 分 相似 ， 状 态 q, 一 qe > dg 一 qf 
组 成 的 子 网 络 与 状态 q; ~ qd4 -qs = do 组 成 的 子 网 络 十 分 相似 ， 状 态 qy 
一 qe ”dt 与 状态 qo ^q» 一 qf 组 成 的 子 网 络 十 分 相似 。 利 用 语言 符号 的 
递归 性 ， 我 们 可 以 建立 递归 转移 网 络 来 大 大 地 简化 繁杂 的 有 限 状 态 转 
移 网 络 。 


为 此 ， 我 们 把 状态 qo , qi , d; q3 , q4 , ds 组 成 的 子 网 络 分 离 出 来 ， 
单独 构成 一 个 子 网 络 ， 叫 做 NP- 子 网 络 ; 我 们 又 把 状态 q> , qe , qz > ds ， 
qo 组 成 的 子 网 络 分 离 出 来 ， 单 独 构 成 一 个 子 网 络 ， 叫 做 VP- 子 网 络 。 
这 样 一 来 ， 图 4.1 中 的 有 限 状 态 转移 网 络 被 分 解 成 三 个 部 分 : 


S 一 网 络 : 


NP 一 子 网 络 : 


VP 一 子 网 络 : 


图 4.2 


NP Cy VP 


分 解 为 三 部 分 的 有 B 


状态 转移 网 络 


NP- 子 网 络 中 的 qd; 44 一 45 >q? 部 分 与 VP- 子 网 络 中 的 q， ^ (1g 
dg ^q; 部 分 很 相近 ， 它 们 弧 上 的 符号 都 是 V-DET-N， 实 际 上 就 是 一 
个 VP。 据 此 ， 我 们 把 VP- 子 网 络 进一步 简化 为 如 下 的 子 网 络 : 

N 


Cog Uw 27 


VP WH 


图 4.3 ”简化 后 的 NP- 子 网 络 


VP- 子 网 络 中 的 qdg > do > qe 部 分 与 NP- 子 网 络 中 的 go 一 qi 一 qo 部 
分 很 相近 ， 它 们 弧 上 的 符号 ， 或 者 是 DET-N， 或 者 是 单独 的 N (qo 
2Q,ds ^q) ， 实 际 上 就 是 一 个 NP。VP- 子 网 络 中 的 qy -qe ^q; 部 
分 与 S- 网 络 中 的 q >q 一 qs 部 分 很 相近 ， 它 们 弧 上 的 符号 是 N-V 和 
NP-VP， 而 N 就 是 最 简单 的 NP，V 束 是 最 简单 的 VP, N-V 和 NP-VP 实 际 
上 就 是 一 个 S$。 据 此 ， 我 们 把 VP- 子 网 络 进一步 简化 为 如 下 的 子 网 络 : 


Seve 


图 4.4 简化 后 的 VP- 子 网 络 


经 过 这 样 的 简化 之 后 ，NP- 子 网 络 中 包含 有 VP- 子 网 络 ，VP- 子 网 
络 中 包含 有 VP- 子 网 络 ， 甚 至 还 包含 有 S- 网 络 ， 充 分 地 反映 了 语言 符 
号 的 递归 性 。 这 样 的 网 络 目 然 也 束 获 得 了 “递归 转移 网 络 ” 这 个 名 称 。 


由 于 经 过 多 次 简化， 递归 转移 网 络 中 的 状态 的 标号 的 顺序 比较 混 
乱 ， 为 了 便于 阅读 ， 我 们 对 S- 网 络 、VP- 子 网 络 和 VP- 子 网 络 中 的 状 
人 态 的 标号 重新 按 它们 在 各 目的 网 络 或 子 网 络 中 的 顺序 整理 如 下 : 


用 这 样 的 递归 转移 网 络 来 识别 句子 时 ， 首 先 在 S- 网 络 中 找 查 ， 如 
果 在 弧 上 遇 到 NP， 就 下 推 (PUSH) 到 VP- 子 网 络 中 ， 按 顺序 识别 名 
词 词组 NP， 当 进入 到 VP- 子 网 络 的 最 后 状态 dg 时， 就 上 托 (POP) E 
到 S- 网 络 中 ;如果 在 S- 网 络 中 遇 到 VP， 就 下 推 (PUSH) 到 VP- 子 网 
络 中 ， 按 顺序 识别 动词 词组 VP， 当 进入 到 VP- 子 网 络 的 最 后 状态 qf 
Hf, REEF (POP) 回 到 S$- 网 络 中 ， 进 入 S- 网 络 中 的 最 后 状态 qf 时 ， 
句子 就 识别 完毕 。 在 下 推 到 VP- 子 网 络 中 的 时 候 ， 如 果 过 到 其 中 的 
VP- 子 网 络 ， 则 进一步 下 推 到 VP- 子 网 络 中 ， 等 到 进入 VP- 子 网 络 的 最 
后 状态 qd 时， 再 上 托 返 回 到 VP- 子 网 络 中 ; 在 下 推 到 VP- 子 网 络 中 的 
时 候 ， 如 果 遇 到 其 中 的 VP- 子 网 络 ， 则 进一步 下 推 到 VP- 子 网 络 中 ， 
等 到 进入 VP- 子 网 络 最 后 状态 dy 时 ， 再 上 托 返回 到 VP- 子 网 络 中 。 这 


样 递 归 地 遍历 整个 的 递归 转移 网 络 ， 便 能 识别 语言 中 合乎 语法 的 句 
gs 


下 面 ， 我 们 利用 图 4.5 中 的 递归 转移 网 络 来 识别 前 面 的 句子 。 


S 一 网 络 : 
NP 一 子 网 络 : 
Ds QX Q 
VP WH 
e» 
VP 一 子 网 络 : 


V 


SQ oe 


that 
图 4.5 “递归 转移 网 络 


首先 识别 句子 W。 从 S- 网 络 中 的 状态 q 开始 ， 在 状态 qo Sq, 之 间 
是 NP， 则 下 推 到 NP- 子 网 络 ， 在 NP- 子 网 络 中 ， 从 状态 qo 到 状态 df 之 


间 是 N， 可 识别 名 词 John， 上 托 回 到 S- 子 网 络 的 状态 q; ; 在 状态 qi 与 
df 之 间 是 VP， 下 推 到 VP- 子 网 络 ， 在 VP- 子 网 络 中 ， 从 状态 qo 到 qi 之 
间 是 V， 可 识别 动词 ses， 在 状态 qi 有 两 种 选择 : 或 者 进入 d 识别 连 
接 词 that， 或 者 进入 df 识别 NP; 由 于 sees 的 下 一 个 词 不 是 that， 因 此 ， 

再 下 推 到 NP- 子 网 络 ， 在 NP- 子 网 络 中 ， 状 态 qo Sq, 之 间 是 DET， 故 
可 识别 冠 词 the， 在 状态 qi 与 qt 之 间 是 N， 故 可 识别 名 词 house， 然 后 进 
入 最 后 状态 qt ， 再 上 托 回 到 S- 网 络 ， 也 同时 进入 S- 了 网络 最 后 状态 qt ， 

从 而 识别 了 人 句子 “John sees the house” ° 


为 了 便于 阅读 ， 我 们 规定 网 络 中 的 状态 用 两 个 符号 来 表示 : 一 个 
符号 写 在 斜 线 上 端 ， 表 示 网 络 的 名 称 ， 另 一 个 符号 写 在 斜 线 的 下 珊 ， 
表示 该 网 络 中 有 关 状 态 的 位 置 。 例 如 ，S/0 表 示 S- 网 络 中 的 状态 qo ， 
S/f 表 示 S- 网 络 中 的 状态 qf ，VP/1 表 示 VP- 子 网 络 中 的 状态 qi ，NP/1 表 
示 NP- 了 于 网 络 中 的 状态 qi ， 等 等 。 


采用 这 样 的 符号 ， 识 别 过 程 描述 如 下 : 
一 一 从 状态 S/0 开 始 ，S/0 表 示 在 S- 网 络 中 名 字 为 0 的 状态 ; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/O iH 
别 “John”(N) ， 然 后 进入 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


—— F #€ (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 
Fillsees” (V) ， 然 后 进入 状态 VP/1; 


—— F #€ (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “the”(DET) ， 并 进入 状态 NP/1 识 别 “house”(N) ， 然 后 进入 状态 
NP/f ° 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) S- 网 络 的 状态 SAf。 


识别 句子 "Maria sings" 时 ， 首 移 在 S- 网 络 中 的 状态 q 下 推 到 VP- 
子 网 络 ， 识 别名 词 Maria， 上 托 回 到 S- 网 络 的 状态 qd ， 在 这 个 状态 di 
， 下 推 到 VP- 子 网 络 ， 识 别 sings， 再 上 托 回 到 S- 网 络 的 最 后 状态 qdf ， 
句子 GO) 得 到 识别 。 


过 程 描述 如 下 : 
— 从 状态 S/0 开 始 ; 


—— F4É (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “Maria”(N) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


—— F #€ (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 
别 “sings”(V) ， 然 后 进入 状态 VP/f; 


一 一 上 托 (POP) 到 S$- 网络 的 状态 S/f。 


在 识别 句子 @)*The table hits Jack” 时 ， 也 是 首先 在 S- 网 络 中 的 状态 
qo 下 推 到 NP- 子 网 络 ， 识 别名 词 词 组 the table (qo ^q, >q) ， 上 托 


回 到 S- 网 络 的 状态 q; ， 在 这 个 状态 下 推 到 VP- 子 网 络 的 状态 qu 识别 动 
词 hits， 在 VP- 子 网 络 的 状态 q; ， 再 进一步 下 推 到 NP- 子 网 络 ， 识 别名 
词 Jack， 从 NP- 子 网 络 中 上 托 回 到 VP- 子 网 络 ， 再 进一步 上 托 到 S- 网 
络 ， 进 入 该 网 络 的 最 后 状态 qt:。 于是， 句子 @ 识 别 完毕 。 

过 程 描述 如 下 : 

— 从 状态 S/0 开 始 ; 

—— F} (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 


别 “the”(DET) ， 然 后 进入 状态 NP/1 识 别 “table”(N) ; 接着 进入 状 
AXNP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “hits”(V) , 
然后 进入 状态 VP/1; 

一 一 下 推 (PUSH) 到 N- F W i, ÆJ A NPO 3A 
别 “Jack”(N) ， 然 后 进入 状态 NP/f; 

一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 

一 一 上 托 (POP) 到 Ss- 网 络 的 状态 S/f。 

在 识别 句子 4)“John sees that Maria sings” 时 ， 首 先 从 S- 网 络 的 状态 
qo 下 推 到 NP- 子 网 络 中 识别 名 词 John， 上 托 回 到 S$- 网 络 的 状态 q; B 
下 推 到 VP- 子 网 络 的 状态 qu ， 在 识别 了 动词 sees 之 后 ， 进 入 状态 qi ， 
在 状态 qj Plg 之 间 识 别 连 接 词 that， 在 状态 q, ， 上 托 回 到 S- 网 络 的 初 


名 状态 qo ， 在 S- 网 络 的 初始 状态 go ， 又 下 推 到 NP- 子 网 络 以 识别 名 词 
Maria， 又 从 NP_ 子 网 络 上 托 到 S- 网 络 的 状态 qi ， 再 下 推 到 VP_ 子 网 络 
的 初始 状态 qo 以 识别 动词 sings， 并 进入 VP- 子 网 络 的 最 后 状态 qt M 
这 个 状态 进入 S- 网 络 的 最 后 状态 qf。 于是， 句子 @ 识 别 完毕 。 

过 程 描述 如 下 

一 一 从 状态 S/0 开 始 ; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 iH 
别 “John”(N) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


—— F #€ (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 
别 “sees”(V) ， 然 后 进入 状态 VP/1， 在 状态 VP/1 识 别 “that*， 然 后 进 
入 状态 VP/2; 


一 一 下 推 (PUSH) 到 S- 网 络 ， 在 状态 S/0 识 别 NP; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “Maria”(N) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


—— FdE (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 
别 “sings”(V) ， 然 后 进入 状态 VP/f; 


一 一 上 托 (POP) 到 S- 网 络 的 状态 Sf， 这 时 ， 还 需要 进一步 上 托 
(POP) ; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 

一 一 上 托 (POP) 到 S- 网 络 的 状态 S/f。 

££ VA! A) ©" The table that lacks a leg hits Jack” 上 时， 首先 从 S- 网 络 
的 状态 qo 下 推 到 NP- 子 网 络 中 ， 识 别名 词 词组 the table 之 后 ， 在 状态 q， 
还 可 以 继续 识别 关系 代词 (用 WH 表示 ) that， 在 状态 gq, 与 qf 之 间 是 
VP， 因 而 从 状态 q, 下 推 到 VP- 子 网 络 的 初始 状态 qu ; 在 VP- 子 网 络 的 
状态 qo 和 qi 之 间 ， 识 别 动词 lacks， 在 VP- 子 网 络 的 状态 q; ， 又 下 推 到 
NP- 子 网 络 的 初始 状态 qo ， 以 识别 名 词 词组 a leg; 从 NP- 子 网 络 的 最 
后 状态 qr 上 托 回 到 VP- 子 网 络 的 最 后 状态 qt ， 再 进一步 上 托 回 到 NP- 
子 网 络 最 后 状态 qt ， 继 续 上 托 回 到 S- 网 络 的 状态 q; ; 在 这 个 状态 ， 下 
推 到 VP- 子 网 络 的 初始 状态 qu ， 在 VP- 子 网 络 的 状态 qo 和 qi 之 间 ， 识 
别 动 词 hits; 在 状态 qi 下 推 到 NP- 子 网 络 的 初始 状态 qo ， 以 识别 名 词 
Jack， 进 入 NP- 子 网 络 的 最 后 状态 qr ;识别 了 名 词 Jack 之 后 ， 从 VP- 子 
网 络 的 最 后 状态 qt ， 先 上 托 到 VP- 子 网 络 的 最 后 状态 qf ， 再 继续 上 托 
到 S- 网 络 的 最 后 状态 qf。 于 是 ， 句 子 (识别 完毕 。 


TEX P: 


— 从 状态 S/0 开 始 ; 


—— F4É (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “the” (DET) ， 然 后 进入 状态 NP/1 识 别 “table”(N) 并 达到 状态 
NP/f; 


一 一 在 状态 NP/ 识 别 “that” (WH) ， 然 后 进入 状态 NP/2; 


—— F #€ (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/O iH 
“lacks” (V) ， 然 后 进入 状态 VP/1; 


—— FE (PUSH) 到 VP- 子 网 络 ， 在 状态 NP/O iH 
别 “a” (DET) ， 在 状态 NP/1 识 别 Jeg”(N) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 NP/f:; 
一 一 上 托 (POP) 到 Ss- 网 络 的 状态 5/1; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “hits”(V) ， 
然后 进入 状态 VP/1; 


一 -下 推 (PUSH) 到 NP- 子 网 络 。 在 状态 NP/O iH 
别 “Jack”(N) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 Ss- 网 络 的 状态 S/f。 


句子 (9 的 识别 过 程 比较 复杂 ， 可 图 示 如 下 : 


S -网络 


PUSH POP PUSH POP 
NP- 子 网 络 VP- 子 网 络 
PUSH POP PUSH POP 
VP- 子 网 络 NP- 子 网 络 
PUSH | | POP 
NP- 子 网 络 


图 4.6 ”句子 @@ 的 识别 过 程 


由 上 述 的 句子 的 识别 过 程 可 以 看 出 ， 句 子 的 识别 要 经 过 多 次 的 下 
推 (PUSH) 和 上 托 (POP) 操作 ， 往 往 下 推 了 还 要 再 下 推 ， 上 托 了 还 
要 再 上 托 ， 这 充分 反映 了 语言 句子 的 个 成 分 之 间 一 层 一 层 的 县 套 关 
系 。 这 种 县 套 关系 正 是 语言 符号 递归 性 的 生动 表现 。 


递归 转移 网 络 中 所 反映 出 来 的 英语 句子 成 分 之 间 的 层 层 相互 县 套 
的 情况 ， 可 用 图 4.7 表 示 如 下 。 


图 4.7 递归 转移 网 络 所 反映 的 英语 句子 的 县 套 情况 


递归 转移 网 络 比 有 限 状 态 转 移 网 络 具 有 更 强 的 能 力 。 它 的 结构 简 
单 明 晰 ， 却 能 处 理 目 然 语言 中 非常 复 杂 的 县 套现 象 ， 其 优点 的 显 而 易 
见 的 。 因 此 ， 有 限 状态 转移 网 络 一 般 只 用 来 进行 目 动词 法 分 析 ， 很 少 
用 来 进行 目 动 句 法 分 析 ， 只 有 递归 转移 网 络 才 用 于 目 动 句法 分 析 中 。 


在 递归 转移 网 络 中 ， 采 用 了 下 推 (PUSH) MEFE (POP) 两 种 操 
作 ， 为 此 ， 需 要 设置 “后 进 先 出 栈 ”(Pushdown Stack) 来 控制 这 两 种 操 
作 。 在 下 推 和 和 上 托 操 作 中 ， 当 从 一 个 网 络 下 推 入 男 一 个 网 络 时 ， 必 须 
记 住 原 网 络 中 在 上 托 时 应 该 返回 的 状态 ， 以 便 在 上 托 时 准确 地 返回 到 
这 个 状态 。 如 果 下 推 到 一 个 网 络 A 中 之 后 还 必须 再 下 推 到 男 一 个 网 络 B 
中 ， 在 上 托 时 就 得 先 返 回 到 网 络 B， 再 返回 到 网 络 A， 这 时 ， 就 必须 记 
住 应 该 返回 到 网 络 B 的 状态 的 位 置 和 返回 到 网 络 A 的 状态 的 位 置 ， 以 便 
在 上 托 两 次 之 后 ， 能 够 准确 地 返回 到 相应 的 位 置 。 总 而 言 之 ， 如 末 先 
下 推 到 网 络 A， 再 下 推 到 网 络 B， 那 么 ， 在 上 托 时 ， 就 首先 上 托 返 回 到 
网 络 B， 再 上 托 返 回 到 网 络 A。 这 里 ， 遵 循 着 “后 进 先 出 ” (Last-In- 
First-Out， 简 称 LIFO) 的 原则 ， 先 下 推 的 网 络 后 上 托 ， 后 下 推 的 网 络 
先 上 托 。 建 立 后 进 先 出 栈 ， 正 好 满足 这 种 后 进 先 出 的 要 求 ， 把 上 托 时 
要 返回 的 网 络 中 的 有 关 状 态 ， 存 储 在 后 进 先 出 栈 中 ， 从 而 控制 下 推 和 
上 托 的 过 程 ， 使 递归 转移 网 络 能 够 有 条 不 亲 地 、 按 部 束 班 地 工作 。 


为 了 便于 阅读 ， 我 们 规定 网 络 中 的 状态 用 两 个 符号 来 表示 : 一 个 
符号 写 在 矢 线 上 端 ， 表 示 了 网络 的 名 称 ， 另 一 个 符号 写 在 矢 线 的 下 端 ， 
表示 该 网 络 中 有 关 状 态 的 位 置 。 例 如 ，S/0 表 示 S- 网 络 中 的 状态 qo , S/f 
表示 S- 网 络 中 的 状态 qr ，VP/1 表 示 VP- 子 网 络 中 的 状态 qi; ，NP/1 表 示 
NP- 子 网 络 中 的 状态 qd; ， 等 等 。 


在 对 一 个 递归 转移 网 络 进 行 遍历 的 任何 一 个 时 刻 ， 计 算 机 运算 的 
格局 由 R1、R2、R3 三 部 分 组 成 : 


一 R1: 当前 状态 的 名 字 ; 
一 R2: 输入 符号 串 中 尚未 识别 的 部 分 : 
—R3: 后 进 先 出 栈 的 情况 。 


与 有 限 状 态 转 移 网 络 的 格局 相 比 ， 除 R1 和 R2 之 外 ， 递 归 转 移 网 络 
的 格局 还 要 加 上 后 进 先 出 栈 的 情况 R3。 


例如 ， 在 用 图 4.5 中 的 递归 转移 网 络 来 识别 英语 句子 “John sees the 
house” 时 ， 当 识别 完 动词 sees 返 回 NP- 子 网 络 的 状态 q0 的 时 刻 ， 计 算 机 
的 运算 格局 如 下 : 


< NP/0, the house, VP/f: S/f > 
| 
R3: 后 进 先 出 栈 的 情况 
R2: 输入 符号 串 中 尚未 识别 的 部 分 
Rl: 当前 状态 的 名 字 
后 进 先 出 栈 中 存储 着 VP- 子 网 络 中 的 状态 qt (用 VP/A 表 示 ) 和 S- 
网 络 中 的 状态 qf (ASRR) ， 根 据 后 进 先 出 的 原则 ，VP/f 后 进 排 在 
前 面 ，S/A 先 进 排 在 后 面 。 这 时 ， 后 进 先 出 栈 中 的 情况 如 图 4.8 所 示 。 


图 4.8 ”后 进 移 出 栈 


这 意味 着 ， 当 在 NP- 子 网 络 中 识别 了 符号 串 the house 之 后 ， 先 上 
托 返 回 到 状态 VPAf， 再 上 托 返 回 到 状态 S/f。 


在 壳 历 开始 时 ， 先 从 S- 网 络 中 的 初始 状态 开始 ， 后 进 先 出 栈 为 
空 ， 故 此 时 的 格局 有 是: 


<S/0, ..., > 
KRP, 52 RRMA SS 9 


HERH, WAFS BOARS, A, RIOS T S28 
Neath Sat, MAR SR ERE ARR BoD, Jats eae, 5A 
此 时 的 格局 是 : 


<S/f,, > 


下 面 ， 我 们 举例 说 明 ， 在 一 个 句子 的 识别 过 程 中 ， 计 算 机 运算 格 
局 是 如 何 地 变化 的 。 


我 们 用 图 4.5 中 的 递归 转移 网 络 来 识别 英语 句子 “Mary sees that 
man” (玛丽 看 那个 男人 ) 。 


识别 开始 时 的 格局 为 : 
<9/0. Mary sees that man,> 
在 状态 S/0， 搜 索 到 NP， 故 下 推 下 VP- 子 网 络 中 ， 此 时 的 格局 为 : 


<NP/0, Mary sees that man, S/1: > 


后 进 先 出 栈 中 存储 了 状态 S/1， 表 示 在 从 VP- 子 网 络 上 托 返 回 到 S- 
网 络 时 ， 返 回 的 状态 为 S/1， 


在 VP- 子 网 络 中 ， 在 状态 NP/0， 搜 索 到 N， 名 词 Mary 被 识别 ， 状 
态 转移 到 NPAf， 此 时 的 格局 为 : 


<NP/f, sees that man, S/1: > 


在 状态 NPA， 可 搜索 的 弧 只 有 WH， 但 sees 不 属于 WH， 而 NP/f 文 
是 最 后 状态 ， 故 此 时 唯一 的 选择 就 是 从 NP- 子 网 络 上 托 到 Ss- 网 络 。 由 
于 后 进 先 出 栈 中 的 情况 表示 上 托 时 返回 到 状态 S/11， 所 以 返回 到 S- 网 络 
后 的 格局 为 : 

<S/1, sees that man,> 


这 时 ， 后 进 先 出 栈 中 的 S/1 被 抹 去 ， 后 进 先 出 栈 变 空 。 


在 状态 S/1， 搜 索 到 VP， 故 下 推 到 VP- 子 网 络 ， 状 态 转 移 到 VP/0， 
后 进 先 出 栈 中 存 入 新 的 状态 SA， 表示 上 托 时 返回 的 位 置 。 此 时 的 格局 


zx 


«VP/O, sees that man, S/f: > 


在 状态 VP/0， 搜 索 到 V， 识 别 了 动词 sees 后 进入 状态 VP/1， 此 时 的 
格局 为 : 


<VP/1, that man, S/f: > 


在 状态 VP/0 搜 索 到 V 时 ， 也 可 能 进入 状态 VP/f， 由 于 VP/ 是 最 后 
状态 ， 故 上 托 到 S$- 网 络 中 的 状态 SA。 但 由 于 S/f 已 经 是 -网 络 的 最 后 状 


态 ， 而 输入 符号 串 中 还 有 that man 没 有 被 识别 ， 所 以 ， 其 格局 为 : 


<S/f, that man,> 


这 种 格局 是 不 可 能 的 。 因 而 在 识别 了 动词 sees 之 后 ， 不 进入 状态 
VP/f， 而 进入 状态 VP/1。 


在 状态 VP/1， 又 存在 如 下 两 种 格式 可 供 选 择 : 


<VP/2, man, S/f: > 
<NP/O, that man, VP/f: S/f: > 


如 果 我 们 选择 前 一 种 格局 ， 在 VP/2， 我 们 只 能 下 推 到 S- 网 络 ， 这 
上 时， 格局 变 为 : 


<S/0, man, VP/f: S/f: > 
<NP/O, that man, VP/f: S/f: > 


我 们 再 选择 前 一 格局 ， 在 状态 S0， 我 们 只 得 下 推 到 NP- 子 网 络 ， 
并 在 后 进 先 出 栈 中 加 入 返回 到 S$- 网 络 时 的 结 点 S/1， 这 时 ， 格 局 变 为 : 


<NP/O, man, S/1: VP/f: S/f> 
<NP/O, that man, VP/f: S/f> 


如 果 我 们 这 次 选择 后 一 格局 ， 在 NP- 子 网 络 中 搜索 DET (that 属 于 
DET) ， 并 进入 状态 NP/1， 这 时 ， 格 局 变 为 : 


<NP/O, man, S/1: VP/f: S/f: > 
<NP/1, man, VP/f: S/f: > 


继续 选择 后 一 格局 ， 在 NP_ 子 网 络 中 搜索 N (man 属 于 N) ,并 进入 
状态 NPAf， 这 时 ， 格 局 变 为 : 


«NP/0, man, S/1: VP/f: S/f: > 
<NP/f,, VP/f: S/f: > 


如 果 我 们 继续 选择 后 一 格局 ， 我 们 可 上 托 到 VP- 子 网 络 的 结 点 
VP/f， 并 在 后 进 先 出 栈 中 抹 去 VP/f， 这 时 ， 格 局 变 为 : 


<NP/0, man, S/1: VP/f: S/f: > 
<VP/f,, S/f: > 


再 继续 选择 后 一 格局 ， 从 VP- 子 网 络 上 托 到 S- 网 络 的 结 点 Sf， 并 
在 后 进 先 出 栈 中 抹 去 SA， 后 进 先 出 栈 变 空 ， 这 时 ， 格 局 变 为 : 


<NP/O, man, S/1: VP/f: S/f: > 
<S/f,, > 


后 一 格局 <Sf ，> 中 ，S 正 是 $- 网 络 的 最 后 状态 ， 输 入 符号 吝 中 
没有 剩余 符号 ， 后 进 先 出 栈 变 空 ， 因 而 输入 符号 吝 识 别 成 功 。 


递归 转移 网 络 也 可 以 用 来 进行 随机 生成 。 由 于 生成 是 随机 的 ， 在 
同一 词汇 范畴 中 具体 地 选择 的 单词 ， 不 一 定 与 我 们 例子 中 的 单词 相 
同 。 


下 面 ， 我 们 给 出 句子 “Maria saw the dog”( 玛 利 亚 看 见 那 条 狗 ) 的 
生成 过 程 。 


一 开始 


<S/0,, > 

一 从 S- 网 络 下 推进 入 NP- 子 网 络 ， 在 后 进 先 出 栈 中 记 住 S/1 
<NP/0,，S/1: > 

一 在 NP- 子 网 络 中 搜索 NP 
«NP/f, Maria, S/1: > 

一 生成 Maria， 并 上 托 到 S- 网 络 中 的 状态 S/1 
<S/1, Maria,> 

一 下 推 到 VP- 子 网 络 ， 并 在 后 进 先 出 栈 中 记 住 S/f 
<VP/0, Maria, S/f: > 

一 生成 saw， 进 入 状态 VP/1 
<VP/1, Maria saw, S/f: > 

一 下 推 到 NP- 子 网 络 ， 并 在 后 进 先 出 栈 中 记 住 VP/f 
«NP/0, Maria saw, VP/f: S/f: > 

一 在 NP- 子 网 络 中 搜索 DET， 生 成 the， 并 进入 状态 NP/1 
<NP/1, Maria saw the, VP/f: S/f: > 

一 在 NP- 子 网 络 搜 索 N， 并 生成 dog， 并 进入 状态 NP/f 


<NP/f, Maria saw the dog, VP/f: S/f: > 


一 上 托 回 VP- 子 网 络 的 最 后 状态 VP， 并 在 后 进 先 出 栈 中 抹 去 
VP/f 


«VP/f, Maria saw the dog, S/f: > 
一 继续 上 托 到 S- 网 络 中 的 最 后 状态 S4， 并 在 后 进 移 出 栈 中 抹 去 S/ 
<S/f, Maria saw the dog,> 


这 时 ， 进 入 了 S- 网 络 中 的 最 后 状态 Sf， 后 进 移 出 栈 变 空 ， 生 成 的 
从 号 串 为 “Maria saw the dog”， 生 成 完毕 。 


如 果 我 们 把 递归 转移 网 络 中 弧 上 的 单个 符号 改 为 符号 偶 对 ， 那 
么 ， 递 归 转 移 网 络 就 变 成 了 后 进 先 出 转录 机 (Pushdown Transducer, 
简称 PT) 。 


我 们 建立 如 下 的 后 进 先 出 转录 机 来 作 简 单 的 英 一 法 机 器 翻译 。 


S 一 网 络 : 


VP 一 子 网 络 : 


that- que 
图 4.9 ”后 进 先 出 转录 机 


其 中 ，N-MASC 表 示 阳 性 名 词 ， 其 划一 法 符号 偶 对 可 为 
man-homme (A) ,  horse-cheval (4) 
N-FEMN 表 示 阴 性 名 词 ， 其 天 一 法 符号 俩 对 可 为 : 


house-maison (房子 ) ,  table-table (桌子 ) 


DET-MASC 表 示 阳 性 限定 词 ， 其 英 一 法 符号 偶 对 可 为 : 


a-un, the-le， this-ce 


DET-FEMN 表 示 阴 性 限定 词 ， 其 英 一 法 符号 偶 对 可 为 : 
a-une, the-la, this-cette 
NP 的 英 一 法 符号 偶 对 可 为 : 
John-Jean, Mary-Marie, Jean-Jeanne 
V 的 英 一 法 符号 侦 对 可 为 : 
sees-voit (Æ) ， hits-frappe (T, WÉ) ， 
sings-chante ( 唱 ) , ^ lacks-manque (缺少 ) 
WH 的 糯 一 法 符号 个 对 可 为 : 
who-qui, which-qui, that-qui 


采用 这 样 的 后 进 先 出 转录 机 ， 输 入 英语 就 可 以 得 到 相应 的 法 语 ， 
它 还 能 区 分 名 词 和 限定 词 的 性 ， 比 词 对 词 的 翻译 要 稍 好 一 些 。 


但 是 ， 后 进 先 出 转录 机 在 进行 英法 机 妖 翻 译 时 ， 法 语 译文 的 词 序 
与 英语 原文 的 词 序 是 完全 一 致 的 ， 如 宋 法语 译文 的 词 序 与 英语 原文 的 
词 序 不 同 ， 束 不 能 利用 后 进 先 出 转录 机 进行 翻译 。 为 了 克服 后 进 完 出 
转录 机 的 这 个 缺陷 ， 学 者 们 在 递归 转移 网 络 的 基础 上 ， 提 出 了 扩充 转 
移 网 络 (Augmented Transition Networks， 人 简称 ATN) . 


我 们 知道 ， 在 英语 中 ， 形 容 词 修饰 名 词 时 ， 形 容 词 在 名 词 之 前 ， 
而 在 法 语 中 ， 形 容 词 修饰 名 词 时 ， 形 容 词 却 在 名 词 之 后 。 例 如 ， 英 


语 “a short name” (484) 译 为 法 语 时 ， 其 词 序 为 “un nom court", JÉ 
容 词 court ( 短 ) 在 名 词 nom (ZF) 的 后 面 。 在 把 英语 译 为 法 语 时 ， 
必须 进行 词 序 的 调整 。 


扩充 转移 网 络 中 设 有 寄存 器 (registers) ， 我 们 可 以 把 有 关 的 信息 
记 有 杂 在 寄存 咒 中 。 寄 存 右 中 的 信息 ， 古 以 “条 件 一 动作 ” 偶 对 的 方式 来 
工作 的 ， 在 扩充 转移 网 络 中 每 搜索 一 个 弧 上 的 符号 ， 都 要 首先 检查 与 
此 符号 有 关 的 寄存 器 ， 看 其 是 否 符合 寄存 右 中 条 件 的 规定 ， 并 执行 相 
应 的 动作 ， 才 能 通过 这 个 符号 而 进入 下 一 个 状态 。 有 了 这 样 的 寄存 
如 ， 我 们 整 不 难 在 英法 机 絮 翻 译 中 进行 词 序 的 调整 了 。 


具体 说 来 ， 我 们 可 以 在 扩充 转移 网 络 的 NP- 子 网 络 的 最 后 状态 设 
置 寄存 器 FNP， 如 果 英 译 法 时 译 的 是 人 名 ， 则 将 英语 的 人 名 直接 译 为 
法 语 的 人 和 名， 如 果 英 译 法 时 译 的 是 由 形容 词 与 名 词 构成 的 名 词 词组 ， 
那么 ， 我 们 还 要 设置 FDET FADJS 和 FNOUN 等 寄存 器 来 记录 名 词 词组 
翻译 中 要 用 的 有 天 信息 。 


扩充 转移 网 络 的 VP- 子 网 络 如 图 4.10 所 示 。 


ES n 
D 


ADJ 
图 4.10 ”调整 词 序 的 扩充 转移 网 络 


这 个 扩充 转移 网 络 设置 了 FADJS, FNOUN, FDET 和 FNP 四 个 寄存 
ate EINER TF: 


一 在 初始 状态 qu ， 置 寄存 器 FADJS 为 空 伯 号 串 ; 

一 在 最 后 状态 qt ， 返 回 寄 存 器 FNP; 

一 从 状态 qo 到 状态 qi ， 搜 索 DET， 置 寄存 器 FDET 为 French (*) , 
C) 表示 当前 词 ; 

一 从 状态 qj 返回 到 状态 q; ， 搜 索 ADJ， 置 寄存 器 FADJS 为 FADJS 
+ French (*) ; 


一 从 状态 q; 到 状态 qe ， 搜 索 N， 置 寄存 器 FNOUN 为 French (* 


) ， 由 于 gf 是 最 后 状态 ,返回 寄存 器 FNP， 再 置 寄 存 器 FNP 为 FDET+ 
FNOUN + FADJS. 


在 上 述 式 子 中 ,“+” 号 表示 是 符号 串 的 毗连 ， 也 就 是 把 “+” 号 前 后 
的 单词 连 起 来 并 在 其 间 加 一 个 空白 。French 是 一 个 函数 ， 它 把 英语 词 
译 成 相应 的 法 语词 。French C) 表示 把 当前 的 英语 词 译 成 相应 的 当前 
法 语词 。 寄 存 器 FADJS 用 来 存储 将 要 翻译 的 形容 词 符号 序列 ， 当 在 名 
词 词组 中 发 现 还 有 更 多 的 形容 词 时 ， 就 把 与 它们 相应 的 法 语 形 容 词 逐 
一 地 加 到 该 寄存 人 絮 当 前 值 的 尾部 。 由 于 在 最 后 状态 置 寄存 器 FNP 为 
FDET + FNOUN + FADJS， 这 样 ， 束 可 以 把 喘 语 名 词 词组 中 处 于 名 词 
前 面 的 形容 词 在 法 语 译文 中 加 到 名 词 的 后 面 去 ， 从 而 实现 词 序 的 调 
HO o 


由 此 可 以 看 出 ， 在 对 一 个 扩充 转移 网 络 进 行 遇 历 的 任何 一 个 时 
刻 ， 计 算 机 运算 的 格局 应 该 由 R1, R2, R3 和 R4 四 个 部 分 组 成 。 


一 R1: 当前 状态 的 名 字 : 

—R2: 输入 符号 串 中 尚未 识别 的 部 分 ; 
一 R3: 后 进 先 出 栈 中 的 情况 ; 

一 R4: 寄存 絮 的 情况 。 


与 递归 转移 网 络 相 比 ， 扩 充 转移 网 络 中 计算 机 运算 的 格局 多 出 了 
R4， 即 寄存 器 的 情况 。 


在 法 语 中 ， 限 定 词 和 形容 词 的 性 必须 与 它们 所 说 明 的 名 词 的 性 保 
持 一 致 关 系 。 如 果 名 词 为 阳性 ， 则 说 明 它 的 限定 词 和 形容 词 就 用 阳性 
形式 ， 如 果 名 词 为 阴性 ， 则 说 明 它 的 限定 词 和 形容 词 就 用 阴性 形式 。 
例如 : 


英语 a green tree (一 棵 绿 树 ) 译 为 法 语 时 为 un arbre vert， 因 为 名 
词 arbre ( 树 ) 是 阳性 ， 所 以 ， 在 后 面 说 明 它 的 形容 词 用 阳性 形式 vert 
( 绿 ) ， 在 前 面 说 明 它 的 不 定 冠 词 用 阳性 形式 un。 


英语 a green table (一 张 绿 色 的 桌子 ) 译 为 法 语 时 为 une table 
verte， 因 为 名 词 table (桌子 ) 是 阴性 ， 所 以 ， 在 后 面 说 明 它 的 形容 词 
用 阴性 形式 verte (Sk) ， 在 前 面 说 明 它 的 不 定 冠 词 用 阴性 形式 une。 


为 了 解决 这 样 的 一 致 关系 问题 ， 我 们 在 有 限 状态 转移 网 络 中 曾 采 
用 过 增加 状态 和 弧 的 办 法 ， 使 阳性 名 词 的 识别 走 一 条 路 ， 而 阴性 名 词 
的 识别 走 男 一 条 路 ， 而 形容 词 和 限定 词 的 性 ， 则 根据 它们 所 说 明 的 名 
词 的 性 来 决定 。 然 而 ， 在 实际 的 裔 历 过 程 中 ， 只 有 一 条 路 的 搜索 会 导 
致 成 功 ， 因 而 这 种 分 别 为 阳性 名 词 和 阴性 名 词 设置 不 同 路 径 的 方法 ， 
显得 十 分 庞杂 ， 运 行 效 率 也 比较 低 。 


如 果 我 们 使 用 扩充 转移 网 络 ， 那 么 ， 我 们 只 要 设置 一 个 叫做 
FGENDER 的 寄存 磊 ， 在 这 个 寄存 郁 中 记录 着 有 关 性 的 一 致 关系 的 信 
居 ， 阳 性 名 词 和 阴性 名 词 共同 使 用 一 个 弧 ， 只 要 在 寄存 右 中 根据 阳性 
名 词 和 阴性 名 词 的 不 同 而 使 相应 的 限定 词 和 形容 词 取 不 同 的 值 ， 在 过 
历 过 程 中 ， 如 果 征 阳性 名 词 ， 则 限定 词 和 形容 词 的 性 惑 取 阳 性 形式 为 
其 值 ， 如 有 果 是 阴性 名 词 ， 则 限定 词 和 形容 词 就 取 阴 性 形式 为 其 值 。 这 
样 ， 在 网 络 中 不 必 增 加 新 的 状态 和 新 的 弧 ， 就 可 以 解决 法 语 名 词 词组 
中 性 的 一 致 关系 问题 。 


这 样 的 扩充 转移 网 络 中 的 NP- 子 网 络 如 下 : 
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图 4.11 ”处 理 一 致 关系 的 扩充 转移 网 络 


这 个 扩充 转移 网 络 中 设置 了 FADJS, FDET, FNP, FNOUN, 
FGENDER 五 个 寄存 器 。 


这 五 个 寄存 器 的 作用 如 下 : 
一 在 最 后 状态 qf ， 返 回 FNP: 


一 从 状态 qo 到 状态 qt ， 搜 索 DET， 置 寄存 器 FGENDER 


为 “masculine”(〈 阳 性 ) ， 置 寄存 器 FDET 为 French (", "masculine") ; 


一 从 状态 qo 到 状态 qt . SER DET, E A F as FGENDER 


为 “feminine”( 阴 性 ) ， 置 寄存 器 FDET 为 French (", feminine") ; 


一 从 状态 qi 返回 到 状态 gq/ ， 置 寄存 器 FADJS 为 FADJS + French (^ 


, FGENDER) : 


一 从 状态 qi 到 最 后 状态 qi ， 置 寄存 器 FNOUN 为 French (*) , 


FNOUN 的 性 必须 与 FGENDER 的 性 一 致 ， 并 置 FNP 为 FDET + FNOUN 
+ FADJS ° 


Frenchzé — AKA, "ERSTE FH e702 18 el EE UTR AT A 
French (*) 表示 把 当前 的 英语 词 翻 译 成 当前 的 法 语词 。 由 于 使 用 了 寄 
ffs&FGENDER, ， 使 得 我 们 可 以 根据 不 同 的 条 件 来 决定 所 取 法 语词 的 
性 ， 从 而 在 名 词 词组 中 ， 保 持 名 词 与 说 明 它 的 限定 词 和 形容 词 在 性 上 
HJ—3X ° 


在 现代 人 工 智能 研究 中 ， 有 两 种 不 同 的 形式 化 知识 表达 方式 。 一 
种 方式 是 说 明 性 知识 表达 方式 ( declarative knowledge 
representation) ， 一 种 方式 是 过 程 性 表达 方式 (procedural knowledge 
representation) 。 说 明 性 知识 表达 方式 着 重 于 知识 的 静态 方面 ， 它 描 
述 客 体 、 事 件 及 其 相互 间 的 联系 ， 要 求 用 户 给 出 已 知 条 件 ， 而 不 需要 
给 出 操作 的 步骤 。 而 过 程 性 知识 表达 方式 则 强调 知识 的 动态 方面 ， 它 
要 说 明 问 题 的 求解 过 程 ， 要 求 用 户 给 出 解决 该 问题 的 操作 步 又， 说明 
完 做 什么 ， 再 做 什么 ， 最 后 做 什么 ， 每 条 规则 就 是 一 个 “条 件 一 动 
作 ” 侦 对 的 操作 序列 ， 用 户 可 以 直接 将 一 些 启 发 式 的 控制 知识 租 入 规则 
中 ， 从 而 提高 问题 求解 的 效率 。 


有 限 状 态 转 移 网 络 和 递归 转移 网 络 显然 都 是 说 明 性 的 知识 表达 方 
式 ， 它 们 只 要 求 用 户 给 出 完备 正确 的 前 提 条 件 和 相应 的 状态 转换 规 
则 ， 而 问题 求解 的 方式 和 策略 则 完全 隐 含 在 控制 系统 之 中 。 因 此 ， 只 
要 根据 有 限 状 态 转 移 网 络 和 递归 转移 网 络 的 一 般 性 原则 ， 我 们 就 可 以 
处 理 形形色色 的 、 各 不 相同 的 任务 。 而 扩充 转移 网 络 则 有 很 强 的 过 程 
性 ， 设 计 一 个 扩充 转移 网 络 很 像 设 计 一 个 计算 机 程序 ， 它 要 详细 地 、 
具体 地 说 明 问 题 的 求解 过 程 ， 因 此 ， 扩 元 转 移 网 络 只 用 于 解决 它 所 要 
解决 的 特定 问题 。 例 如 ， 我 们 前 面 设 计 的 用 于 英法 机 器 翻译 的 扩充 转 
移 网 络 ， 不 能 用 来 进行 英语 的 随机 生成 ， 也 不 能 用 来 进行 反方 向 的 法 
英 机 器 翻译 。 然 而 ， 扩 充 转移 网 络 进行 问题 求解 的 效率 却 很 品 ， 这 赴 
它 的 一 个 突出 的 优点 ， 在 很 多 自然 语言 处 理 系统 中 ， 扩 充 转 移 网 络 得 
到 广泛 的 采用 。 


由 此 可 见 ， 说 明 性 的 知识 表达 方式 与 过 程 性 的 知识 表达 方式 各 有 
利 次 ， 我 们 应 该 把 它们 恰当 地 结合 起 来 ， 更 好 地 解决 目 然 语言 处 理 中 
的 各 种 问题 。 


递归 转移 网 络 和 扩充 转移 网 络 都 把 句子 分 解 成 一 些 词组 来 进行 理 
解 ， 这 样 的 处 理 方式 与 人 脑 中 进行 的 对 于 目 然 语言 句子 的 分 析 方式 有 
相近 之 处 。 心 理 语言 学 的 研究 证 明 ， 听 话 人 在 理解 句子 时 也 有 是 把 句子 
分 解 为 一 个 个 的 组 成 成 分 来 进行 的 。 美 国学 者 弗 托 (J. A. Fodor) 发 
现 ， 语 言 的 知觉 单位 相当 于 句子 的 组 成 成 分 ， 人 们 在 理解 输入 的 句子 
时 总 十 把 句子 分 解 成 一 些 组 成 成 分 ， 如 NP, VP 等 。 作 为 一 个 单位 ， 它 
们 相对 地 不 受 外 寞 刺激 的 影响 ， 并 力 独 抵制 外 来 的 干扰 而 保持 其 完整 
性 。 他 们 做 过 这 样 的 实验 : 让 被 试 者 的 一 个 耳 示 听 语 言 ， 男 一 个 耳 栗 
听 卡 擦 声 ， 如 采 卡 擦 声 在 组 成 成 分 的 交界 处 ， 被 试 者 很 容易 察觉 卡 探 
声 出 现 的 位 置 ， 但 如 采 卡 擦 声 出 现在 一 个 组 成 成 分 的 中 间 ， 伞 试 者 就 


难以 察觉 出 它 的 实际 位 置 ， 往 往 把 卡 探 声 察 觉 为 发 生 在 接近 组 成 成 分 
的 交界 处 。 这 样 的 心理 语言 学 实验 ， 为 递归 转移 网 络 和 扩充 转移 网 络 
把 句子 分 解 为 词组 来 进行 目 动 处 理 ， 在 理论 上 找到 了 根据 。 


BT BRE Lea H MK 
FATA 


目 动 句法 分 析 就 十 计算 机 目 动 地 识别 句子 的 各 个 句法 单位 以 及 它 
们 之 间 的 相互 关系 的 过 程 ， 这 个 过 程 ， 又 叫做 “剖析 ” (parsing， 我 们 
把 英文 parsing 翻 译 为 “ 谢 析 ”， 十 为 了 使 汉语 译名 与 英文 原 词 谐音 ， 
内 学 者 也 有 把 这 个 术语 翻译 为 “自动 句法 分 析 ” 的 ) 。 


自然 语言 的 剖析 技术 是 建立 在 自然 语言 的 形式 语法 (formal 
grammar) 的 基础 之 上 的 。 所 谓 剖 析 ， 就 是 要 用 形式 语法 来 分 析 语 言 
句子 的 结构 ， 使 之 能 清晰 地 、 形 式 化 地 表示 出 来 ， 因 此 ， 形 式 语 法 在 
目 然 语言 的 剖析 中 有 着 极为 重要 的 作用 。 


一 般 地 说 ， 一 种 好 的 形式 语法 ， 在 语言 的 描述 方面 应 该 尽量 地 目 
SAO AREA > Sole, TERA PAT, MAA IRIRI A TURCRE 
力 ， 在 计算 技术 方面 ， 应 该 具有 较 高 的 效率 。 


美国 语言 学 家 乔 姆 斯 基 提 出 ， 形 式 语法 G 可 以 用 下 面 的 四 元 组 来 
EN: 


G = (VN, VT, S, P) 


其 中 ，VN 是 非 终 极 符号 的 集合 ， 这 些 符号 是 专 | 用 来 描述 语法 类 
别 的 ， 它 们 是 区 上 畴 符号 ， 如 词类 符号 、 词 组 类 型 符号 等 ，VT 古 终极 符 
号 的 集合 ， 它 们 就 是 被 定义 语言 中 的 具体 的 单词 ，S 古 初始 符号 ， 它 
征集 合 VN 中 的 一 个 特殊 成 员 ; 了 是 重 写 规则 的 集合 ， 其 中 的 每 一 条 规 
则 都 具有 


oy 


的 形式 ，@ 称 为 规则 的 左 部 (Left Hand Side， 简 称 LHS) ，y 称 为 规则 
的 右 部 (Right Hand Side， 简 称 RHS) ， 中 = 中 意味 着 可 以 用 规则 的 右 
部 来 置换 规则 的 左 部 由 。 


给 定 了 一 个 语法 G， 我 们 就 可 以 从 初始 符号 S 开 始 ， 应 用 重 写 规则 
推导 出 这 种 语法 G 所 描述 的 语言 L(G) .具体 地 说 ， 我 们 可 以 用 重 写 规 
则 Ss 一 ®@1 ， 从 S 推 导出 新 的 符号 串 @; ， 再 利用 重 写 规 则 @1; 5o,, A 


o, 推导 出 新 的 符号 串 @。 ，.…， 一 直到 我 们 得 到 不 能 再 重 写 的 符号 串 
o, 为 目 。 这 样 推导 出 的 终极 符号 串 @， ， 就 是 语言 L (G) 的 成 立 句 
mas 


第 一 和 章 中 我 们 曾经 提 到 过 的 短语 结构 语法 ， 就 是 乔 姆 斯 基 形 式 语 
法 中 最 重要 的 一 个 类 型 。 确 切 地 说 ， 这 种 短语 结构 语法 应 该 叫做 上 下 
文 无 关 的 短语 结构 语法 (Context-Free Phrase Structure Grammar， 简 称 
CF-PSG) 。 这 种 语法 的 重 写 规则 是 : 


A-@ 


其 中 ，A 是 单个 的 非 终极 符号 〈《 即 范畴 符号 ) ，o 是 非 空 的 符号 串 ，o 
可 以 由 终极 符号 组 成 ， 也 可 以 由 非 终 极 符号 组 成 ， 也 可 以 由 终极 符号 


与 非 终极 符号 混合 组 成 。 


有 了 一 个 上 下 文 无 关 的 短语 结构 语法 ， 我 们 就 可 以 用 RHS 中 的 符 
号 串 来 重 写 LHS 中 的 范畴 符号 ，RHS 的 符号 串 中 可 以 含有 范畴 符号 ， 
也 可 以 含有 具体 的 单词 。 当 用 上 下 文 无 关 的 短语 结构 语法 把 LHS 中 的 
范畴 符号 重 写 为 具体 的 RHS 的 时 候 ， 不 必 考 虑 LHS 的 范畴 符号 所 出 现 
的 上 下 文 ， 规 则 的 使 用 对 于 上 下 文 没有 任何 的 限制 ， 这 就 是 为 什么 这 
种 语法 叫做 * 上 下 文 无 关 的 短语 结构 语法 ”的 原因 。 当 今 在 程序 设计 语 
言 中 所 使 用 的 巴 库 斯 一 瑙 尔 范 式 (Bacus-Naur Normal Form) 就 是 上 下 
文 无 关 的 短语 结构 语法 。 


为 了 行文 上 的 方便 ， 在 不 引起 混淆 的 情况 下 ， 我 们 在 下 面 的 叙述 
中 ， 把 上 下 文 无 关 的 短语 结构 语法 叫做 “短语 结构 语法 ”。 


我 们 提出 如 下 的 短语 结构 语法 : 


G = (VN, VT, S, P) 
VN = |S, NP, VP, V] 
VT = | Ke, Ki |} 


$9 818] 

P: 
S — NP + VP (i) 
VP — V + NP ( ii) 
VP — V (iii ) 
NP — | A € X HERR | ( iv ) 
V 一 1 Æ, | (v) 


下 面 ， 我 们 从 初始 状态 开始 ， 写 出 句子 “ 林 人 得 玉 焚 诗 稿 * 的 推导 过 
程 : 


推导 过 程 所 用 规则 
S 开始 
NP VP [15 
NP V NP (ii) 
林黛玉 V NP (iv) 
Kee X NP ( v) 
WEE HH Wr ( iv) 


上 述 推导 过 程 ， 也 束 是 这 个 句子 的 生成 过 程 。 
由 短语 结构 语法 生成 的 句子 ， 可 以 用 如 下 的 树 形 图 来 表示 : 


5o Hh 


E412 WER 


这 种 与 短语 结构 语法 相对 应 的 树 形 图 ， 叫 做 “短语 结构 


树 ” (Phrase Structure Tree) ° 


我 们 也 可 以 把 短语 结构 树 表示 为 一 个 表 (list ， 表 中 的 第 一 个 元 
素 是 树 形 图 的 根 上 的 标记 ， 后 面 的 各 个 元 素 是 相应 结 点 的 直接 后 裔 的 
标记 ， 按 它们 在 句子 中 出 现 的 顺序 排列 ， 在 LISP 语 言 中 ， 上 述 的 短语 
结构 树 可 表示 为 : 


(S (NPKK) (NP (VŽ) (NPR) ) ) 


由 于 表 中 的 第 一 个 元 素 是 树 形 图 中 根 结 点 的 标记 ， 尔 后 的 各 个 元 
素 依 次 是 其 后 裔 的 标记 ， 而 这 些 元 素 本 吴 也 是 表 。 这 样 的 表 写 成 下 面 
的 形式 更 醒目 : 


(S 


(NP WEE) 
( VP 
( V A) 
(NP i#4% ) )) 
上 面 的 短语 结构 语法 也 可 以 生成 句子 “林黛玉 叹息 ”。 其 推导 过 程 


推导 过 程 所 用 规则 
S 开始 

NP VP Ci) 

NP V ( iii ) 

pK BE E V (iv) 


WEE Jui ( v) 


DUE 


图 4.13 ”短语 结构 树 


其 短语 结构 树 为 : 
这 个 短语 结构 树 在 LISP 语 言 中 可 表示 为 : 
(S 
( NP MASSA) 
( VP 
( V 叹息 ))) 


如 果 一 种 语言 可 以 由 短语 结构 语法 来 描述 ， 也 殉 可 以 用 递归 转移 
网 络 来 措 述 ， 由 于 短语 结构 语法 是 上 下 文 无 关 的 ， 因 此 ， 这 种 语言 6 
以 称 之 为 上 下 文 无 关 语言 (Context Free Language， 人 简称 CFL) ° 


短语 结构 语法 便于 书写 ， 便 于 修改 ， 因 而 受到 了 目 然 语言 处 理 研 
究 者 的 普 裔 欢迎， 推动 了 目 然 语言 处 理 的 发 展 ， 在 目 然 语言 处 理 中 屡 
建 奇 功 。 短 语 结构 语法 的 形式 清晰 ， 易 学 易 记 ， 在 剖析 、 翻 译 和 编译 
等 技术 中 得 到 广泛 的 应 用 ， 目 然 语言 处 理 早已 研制 出 了 用 于 剖析 和 识 
别 上 下 文 无 关 语 言 CFL 的 高 效 算法 ， 上 下 文 无 关 的 短语 结构 语法 的 剖 
析 程 序 已 经 制 成 专用 的 软件 ， 可 见 目 然 语言 处 理学 界 对 于 短语 结构 语 
法 之 重视 。 


下 面 ， 我 们 介绍 几 种 基于 短语 结构 语法 的 剖析 技术 。 
(1) EUIS. EST (bottom-up parsing) 


如 条 我 们 有 包含 三 个 词 的 汉语 句子 “ 林 集 玉 欧 诗 稿 >， 经 过 目 动 切 
词 之 后 ， 这 个 句子 的 词 与 词 之 间 出 现 了 空 日 ， 其 形式 变 为 : 


PEER 6 nm 


使 用 前 述 的 短语 结构 语法 G， 我 们 可 知 第 一 个 词 “ 林 焦 玉 ”应 该 属 
于 NP 这 个 句法 范畴 ， 因 为 在 语法 G 的 重 写 规 则 (iv) 中 ， 与 规则 右 部 
RHS“ 林 售 玉 ” 相 匹 配 的 规则 左 部 LHS 是 范畴 符号 NP。 这 样 ， 我 们 得 到 
如 下 的 剖析 图 


NP 


KG FOE 诗 稿 
SiG, RAKES ENP 焚 ” 诗 稿 "。 我 们 检查 在 语法 G 
中 ， 有 没有 右 部 RHS 为 NP 的 重 写 规则 。 例 如 ， 如 果 在 语法 G 中 有 
K 一 NP 这 样 的 重 写 规则 ， 那 么 ， 我 们 就 可 以 把 NP 置 于 K 之 下 ， 让 K 来 
支配 NP; 但 是 ， 在 我 们 的 语法 G 中 没有 这 样 的 重 写 规 则 ， 因 此 ， 我 们 
来 检查 所 得 符号 串 中 的 第 二 个 词 “ 禁 ”*”"， 根 据 规则 (v) ， 我 们 发 
现 “ 禁 ”的 范畴 符号 是 V， 于 是 ， 我 们 得 到 剖析 图 


NP Vv 
MARGO X HA 


在 剖析 过 程 中 ， 我 们 要 设法 在 语法 G 所 容许 的 范围 内 ， 尽 量 把 符 
号 串 中 的 范畴 符号 组 合 起 来 。 


首先 ， 我 们 再 一 次 检查 在 语法 G 中 ， 有 没有 右 部 RHS 只 包含 NP 的 
重 写 规 则 ， 检 查 结果 是 没有 ， 然 后 ， 我 们 再 检查 在 语法 G 中 ， 有 没有 
能 把 NP 和 V 组 合 起 来 的 重 写 规则 ， 检 查 结果 也 是 没有 。 于 是 ， 我 们 来 
仿 查 符号 串 NP V 中 的 第 二 项 V， 看 一 看 语法 G 中 ， 有 没有 规则 右 部 
RHS 为 V 的 重 写 规 则 ， 我 们 发 现 重 写 规 则 (i) 正 是 这 样 的 规则 ， 于 
是 ， 我 们 把 V 置 于 VP 的 文 配 之 下 ， 得 到 剖析 图 


VP 
NP V 


WEE X Hi 
现在 ，VP 位 于 初始 符号 NP 之 后 。 我 们 再 一 次 检查 语法 G 中 有 没有 
石 部 RHS 中 只 包含 NP 的 重 写 规 则 ， 检 查 结果 是 没有 。 我 们 再 来 检查 语 
法 G 中 有 没有 规则 右 部 RHS 为 符号 串 NP VP 的 重 写 规则 ， 检 查 结果 发 
m, HU G) 就 是 这 样 的 重 写 规则 ， 其 左 部 LHS 为 S， 于 是 ， 把 NP VP 
置 于 S 的 支配 之 下 ， 得 到 剖析 图 


NP V 


M€E X TS 
这 时 ，S 的 跨度 从 NP 开始 ， 到 VP 结束 ， 得 到 的 符号 串 为 “S 诗 
稿 ”。 在 语法 G 中 ， 没 有 右 部 RHS 为 $ 或 *S 诗 稿 ” 的 重 写 规则 ， 于 是 ， 我 
们 查 得 重 写 规则 Gv) 的 右 部 为 “ 诗 稿 "， 其 左 部 LHS 为 NP， 于 是 ， 我 
们 得 到 剖析 图 


VE 
NP. V NP. 


ARE XM 诗 稿 

在 这 种 情况 下 ， 我 们 不 可 能 再 继续 处 理 了 ， 因 为 在 语法 G 中 ，S 不 
可 能 单独 作为 规则 右 部 RHS ， 符 号 串 S NP 也 不 可 能 作为 规则 右 部 
RHS，NP 也 不 能 单独 作为 规则 右 部 RHS。 人 然而 我 们 的 目标 是 要 使 S 能 
跨 凌 于 整个 的 输入 符号 串 ， 而 按 刚 才 的 剖析 过 程 ，S 的 跨度 只 能 包含 
输入 符号 串 中 的 头 两 个 词 “ 林 伐 玉林 ”*"， 而 第 三 个 词 “ 诗 稿 * 却 在 NP 的 支 
配 之 下 ， 孤 零 零 地 处 于 S$ 的 跨 披 之 外 。 显 而 易 见 ， 我 们 一 定 是 在 剖析 
过 程 的 什么 地 方 误 入 卜 途 ， 而 导致 了 剖析 的 失败 ， 使 剖析 进入 了 死 胡 
ie 


AT BEI “SSCA, RIRA EH” (backtracking) 的 办 法 ， 
回 到 谢 析 过 程 中 进行 多 中 选择 的 情况 去 。 为 此 ， 我 们 首先 把 支配 “ 诗 
稿 ” 的 NP 去 掉 ， 再 把 支配 NP VP 的 S 去 掉 ， 得 到 剖析 图 


VP 
NP V_ 
KER E HÄ 


我 们 可 以 看 出 ， 前 面 的 剖析 过 程 之 所 以 进入 死胡同 ， 是 因为 我 们 
过 早 地 把 NP 与 VP 结合 起 来 置 于 S 的 支配 之 下 ， 而 VP 本 映 义 不 能 单独 地 
出 现在 语法 G 的 重 写 规则 的 右 部 RHS 之 中 ， 因 此 ，， 剩 下 来 的 唯一 选 
择 ， 就 是 用 重 写 规则 (i) ， 把 最 后 一 个 词 “ 诗 稿 " 置 于 NP 的 文 配 之 
下 ， 我 们 得 到 剖析 图 


VP 
NP. V NP__ 


MARGO Z 诗 稿 
在 这 种 情况 下 ， 我 们 首先 检查 符号 串 NP VP NP 能 否 出 现在 语 
法 G 重 写 规 则 的 右 部 RHS， 发 现 不 行 ， 再 检查 符号 串 VP NP 能 否 出 现在 
语法 G 重 写 规 则 的 右 部 RHS， 发 现 也 不 行 ， 最 后 再 检查 句 末 的 NP 能 否 
置 于 男 一 个 范畴 符号 的 支配 之 下 ， 发 现 也 不 行 ， (我 们 已 经 多 次 检查 
过 NP 能 否 作为 规则 右 部 RHS， 但 答案 总 是 否定 的 ) 。 这 样 一 来 ， 我 们 
又 再 一 次 进入 死胡同 中 。 


八 查 了 VP 这 个 范畴 符号 与 别 的 成 分 结合 的 一 切 可 能 性 之 后 ， 我 们 
发 现 ， 直 接 文 配 V 的 VP 这 个 范畴 符号 不 能 引导 我 们 找到 成 功 的 途径 。 
因此 ， 我 们 不 得 不 进一步 回调 ， 抹 去 VP 这 一 个 范畴 符号 ， 于 是 ， 我 们 
得 到 剖析 图 


NP. V NP. 
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fef] dep HV NP 能 否 成 为 语法 G 中 重 写 规则 的 右 部 
RHS， 发 现 重 写 规 则 (ii) 正好 满足 这 样 的 条 件 ， 于 和 是， 我 们 把 符号 串 
V NP 置 于 VP 的 文 配 之 下 ， 其 跨度 从 V 到 NP， 我 们 得 到 天 析 图 


VP 
NP — V NP__ 
WEE M 诗 稿 


回 到 句子 的 开头 ， 我 们 首先 检查 NP 能 否 单独 地 作为 RHS， 发 现 不 
行 ， 接 着 再 检查 符号 串 NP VP 能 否 单 独 地 作为 RHS， 根 据 重 写 规 则 
() ， 可 把 这 个 符号 串 NP VP 置 于 S 的 支配 之 下 ， 于 是 ， 我 们 把 S$ 加 到 
我 们 的 剖析 图 中 ， 得 到 


Un 


VP 
NP. V NP. 
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这 个 $ 与 前 面 的 那个 S 不 一 样 ， 它 的 跨度 从 句 首 开始， 到 句 末 结 
， 禾 盖 了 整个 句子 ， 因 此 ， 句 子 的 剖析 成 功 。 


前 面 的 剖析 过 程 可 以 归结 为 如 下 的 搜索 树 : 


Di Be E po TES 
NP E WÑ 
NP l IS 
NE WE OS NP V NP 
S PES NP I 
s NP | 


ETT 
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从 搜索 树 上 可 以 看 出 ， 要 完成 一 个 句 于 的 副 析 ， 其 搜索 过 程 是 比 
较 复 杂 的 。 如 采 搜 索 一 开始 ， 残 能 找到 正确 的 途径 而 得 到 成 功 ， 那 当 
然 是 最 理想 不 过 的 。 然 而 ， 在 实际 的 剖析 过 程 中 ， 往 往 要 经 过 多 次 的 
反复 和 回溯 才能 取得 成 功 ， 有 时 还 要 不 大 其 烦 地 穷尽 各 种 可 能 性 ， 我 
们 的 程序 总 有 那么 一 股 奖 强劲 ， 不 达 目 的 ， 决 不 休止 。 在 这 个 搜索 树 
中 可 以 看 出 ， 如 果 我 们 按照 如 下 的 顺序 搜索 ， 便 可 避 开 死胡同 ， 直 接 
走 上 成 功 之 途 ， 真 古 “ 踏 破 铁 鞋 无 疯 处 ， 得 来 全 不 费 工夫 ”。 


Jk E Fe AE TES 
NP ae 诗 稿 
NP V 诗 稿 
NP V NP 
NP VP 

S 


用 LISP 语 言 ， 我 们 很 容易 就 可 以 把 上 述 的 目 底 同上 旗 析 过 程 一 目 


了 然 地 写 出 来 。 


(MSS E 


( ( NP 
( ( NP 
( ( NP 
( ( NP 


焚 诗 稿 ) 


WEE) Æ 诗 稿 ) 

WEE) (V X) 诗 稿 ) 

WAGE) (V X) (NP 诗 稿 )) 
KEE) (VP CV X) (NP 诗 稿 ))) 


(S(CNP WE) (VP (V #) (NP 诗 稿 )))) 
心理 学 家 金 补 尔 (J.P. Kimball) 研究 证 明 ， 人 们 在 理解 自然 语言 
上 时， 总 是 试图 把 新 出 现 的 词 依附 到 前 面 与 它 紧 连 的 组 成 成 分 上 ， 把 这 
个 词 与 它 前 面 的 一 个 词 联系 起 来 ， 以 便 减轻 记忆 的 负担 ， 避 人 免 从 记忆 
中 搜索 有 关 的 组 成 成 分 或 词汇 。 由 于 使 用 这 样 的 策略 ， 人 们 在 理解 如 
下 的 更 语句 子 时 往往 会 感到 困惑 ; 


The man offered one thousand dollars for the conference is my 
uncle. 
(为 会 议 提供 一 千 美 元 资助 的 人 是 我 的 叔父 。) 
The horse raced past the barn fell. 


(疾驰 过 牲口 棚 的 那 匹 马 跌倒 了 。) 


人 们 在 开始 时 往往 会 把 第 一 句 中 的 offered 当 作 它 前 面 的 词 man 的 
谓语 ， 把 第 二 句 中 的 raced 当 作 它 前 面 的 词 horse 的 谓语 ， 等 到 句子 快 结 
束 时 ， 才 发 现 这 样 的 理解 是 错误 的 ， 于 是 回 过 头 去 对 句子 重新 进行 分 
析 ， 采 取 类 似 于 “回溯 ”的 方法 ， 从 而 得 到 正确 的 理解 。 这 种 句子 叫 
做 “花园 幽 径 句 ” (garden path sentence) ， 它 正如 花园 中 曲 曲 弯 弯 的 幽 
人 径 那 样 ， 需 要 顾 费 周折 才 可 能 通过 。 金 补 尔 人 研究 为 剖析 技术 中 的 回 济 
机 制 提供 了 心理 学 上 的 根据 。 


(2) AI) Fat (top-down parsing) 
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析 。 为 了 便于 读者 了 解 思路 ， 我 们 以 第 一 人 称 “ 我 ”作为 叙述 的 主体 ， 
目 顶 辐 下 剖析 的 过 程 大 致 如 下 : 


一 我 来 找 查 5 


一 S 由 什么 组 成 ? 
一 S 由 一 个 NP 后 面 跟着 一 个 VP 组 成 
一 所 以 我 得 首先 找 查 NP 
一 NP 由 什么 组 成 ? 
一 语法 G 中 没有 什么 规则 可 以 扩展 NP 
一 单词 " 诗 稿 "可 以 作为 范畴 符号 NP 的 一 个 成 员 


一 “证 稳 ”这 个 单词 是 句子 中 开头 的 第 一 个 词 吗 ? 
一 个 是 

一 单词 “ 林 集 玉 ? 可 以 作为 范畴 符号 NP 的 一 个 成 员 
一 “林黛玉 ”这 个 单词 是 句子 中 开头 的 第 一 个 词 吗 ? 
一 是 的 

一 我 找到 了 包含 单词 “ 林 集 玉 ” 的 一 个 NP 

一 现在 ， 我 要 来 找 查 VP 了 


一 VP 由 什么 组 成 ? 


一 一 个 VP 可 由 一 个 V 组 成 
一 现在 我 需要 找 查 V 
一 V 由 什么 组 成 ? 
一 语法 G 中 有 没有 什么 规则 可 以 扩展 V 
一 单词 “叹息 ”可 以 作为 范畴 符号 V 的 一 个 成 员 
一 “叹息 ”是 句子 中 从 句 首 开始 的 第 二 个 单词 吗 ? 
IE 
一 单词 * 焚 >? 可 以 作为 范畴 符号 V 的 一 个 成 员 
一 “ 禁 * 是 句子 中 从 句 首 开始 的 第 二 个 单词 吗 ? 
一 是 的 
一 我 找到 了 组 成 V 的 单词 是 “ 禁 ” 
一 我 发 现 VP 是 由 V 组 成 的 ， 而 V 又 是 由 单词 “ 焚 * 组 成 的 
一 我 发 现 S 是 由 包含 单词 “ 林 介 玉 ” 的 一 个 NP 以 及 包含 单词 “ 禁 ” 的 
一 个 由 V 组 成 的 VP 这 两 部 分 组 合 而 成 的 
一 是 不 是 到 达 了 句子 的 结尾 了 ? 
一 没有 
一 哎呀 ， 一 定 是 我 做 错 了 什么 事 


一 回溯 到 处， 用 另外 的 办 法 来 做 

一 我 仍然 需要 找 查 VP 

一 VP 是 由 什么 组 成 的 ? 

一 VP 也 可 以 由 一 个 V 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 查 V 
一 V 是 由 什么 组 成 的 ? 
一 语法 G 中 没有 什么 规则 可 以 扩展 V 
一 单词 “ 叹 妃 ”可 
一 句子 中 从 名 首开 始 的 第 二 个 词 是 <“ 叹 妃 > 中 ? 
Sze 
一 单词 “ 禁 ” 可 以 作为 范畴 符号 V 的 一 个 成 员 
一 句子 中 从 句 首 开始 的 第 二 个 词 是 “ 禁 * 吗 ? 
一 是 的 

一 我 找到 了 组 成 V 的 单词 是 “ 焚 ” 

一 现在 我 要 找 查 NP 

一 NP 是 由 什么 组 成 的 ? 

一 在 语法 G 中 没有 什么 规则 可 以 扩展 NP 

一 单词 “ 诗 稿 ”可 以 作为 范畴 符号 NP 的 一 个 成 员 
一 句子 中 单词 “ 禁 * 的 下 面 一 个 词 是 “ 诗 稿 ” 吗 ? 
一 是 的 

一 我 发 现 了 NP 是 由 单词 “ 诗 稿 "组 成 的 

一 我 发 现 了 VP 包含 一 个 由 单词 “ 禁 * 组 成 的 V 和 紧 接 在 V 后 面 的 

一 个 由 单词 “ 诗 稿 * 组 成 的 NP 


一 我 发 现 S 应 该 包含 下 列 成 分 


由 单词 “林黛玉 ”组 成 的 NP 以 及 包含 一 个 由 单词 “ 焚 ” 组 成 的 V 和 紧 
接 在 V 后 面 的 一 个 由 单词 “ 诗 稿 组 成 的 NP 前 后 连接 组 合 而 成 的 VP 


一 是 否 已 经 到 达 了 句子 的 结尾 ? 
一 是 有 的 
一 剖析 成 功 了 


图 4.15 古 “ 林 锡 玉 菊 诗 稿 " 目 项 同 下 误 析 的 搜索 树 。 在 目 顶 疝 下 的 
识别 过 程 中 ， 某 一 时 刻 的 情况 可 用 两 个 序列 来 描述 ， 一 个 序列 由 误 析 
目标 组 成 ， 一 个 序列 由 剩 下 的 单词 组 成 ， 两 个 序列 之 间 用 冒号 (: ) 
Bast o Ag, “ICNP: 焚 诗 稿 ? 说 明 ， 目 顶 回 下 剖析 程序 试图 找 出 后 
面 跟 着 NP 的 单词 “ 叹 电 ”， 而 这 时 剩 下 的 单词 序列 是 “ 焚 诗 稿 ”。 


S. IEE SE pp 


NP VP; WEE 6€ 诗 稿 


WEE VP: WEE 6 FIR 诗 稿 VP: WEE 8 诗 稿 


V: 禁 BH V NP; 焚 诗 稿 
MEL: 焚 WES 30.36 诗 稿 ”叹息 : 禁 诗 稿 ZE NP. 25 诗 稿 
: 诗 稿 NP; 诗 稿 
诗 稿 : 诗 稿 EE: 诗 稿 


[剖析 成 功 !1 
图 4.15” 自 顶 向 下 剖析 的 搜索 树 


在 这 搜索 树 中 ， 如 有 果 我 们 按照 如 下 的 顺序 搜索 ， 便 可 得 到 成 功 : 


BP H ËR 剩 下 的 单词 序列 


: PKR 焚 诗 稿 
: WEE 焚 诗 稿 
5t 诗 稿 
E o 5E 诗 稿 
9e NP Se 诗 稿 
PH 
Pr PERS 
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目 顶 癌 下 剖析 程序 的 写法 与 目 底 和 同上 剖析 程序 的 写法 十 分 相似 。 
目 底 同上 剖析 程序 须要 了 解 在 任何 特定 的 时 刻 成 功 地 找 查 到 的 东西 是 
什么 ， 而 目 顶 癌 下 剖析 程序 则 须要 记 住 它 试 图 要 找 碍 的 东西 是 什么 ， 
这 就 是 它 的 剖析 目标 (goals) 。 因 此 ， 自 顶 向 下 剖析 程序 在 任何 一 个 
时 刻 的 情况 可 用 目标 序列 及 单词 序列 来 描述 。 在 LISP 语 言 中 ， 目 标 序 
JAR (list) 来 表示 ， 单 词 序列 用 原子 (atom) 来 表示 。 当 我 们 调用 
自 顶 向 下 剂 析 程序 时 ， 目 标 序列 的 表 就 是 ( (S) ) ， 它 指出 这 个 剖 
析 程 序 所 要 找 碍 的 表 就 是 这 个 (S) ， 而 单词 序列 的 原子 所 组 成 的 表 
(list of atoms) 就 是 输入 的 句子 ， 这 个 句子 中 的 单词 要 满足 目标 的 要 
求 。 当 目标 序列 与 单词 序列 两 者 都 变 空 时 ， 目 顶 向 下 副 析 就 获得 成 
功 ， 输 入 句子 吏 得 到 识别 。 目 顶 同 下 剖析 过 程 可 用 LISP 语 言 表 示 如 
is 


目标 序列 单词 序列 


(682) ORRE SE 诗 稿 ) 
(CNP X VP)) (HEE BE 诗 稿 ) 
( PKRETE( VP ) ) (IKIRE 55 诗 稿 ) 
(AVES) CHE 许 稿 ) 
((VX NP)) ( BE 诗 稿 ) 

( 禁 (NP ) ) ( 36 诗 稿 ) 

(( NP ) ) ( BE) 
(T) ( 诗 稿 ) 

C) ( ) 
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么 ， 我 们 束 用 语法 中 与 这 个 范畴 符号 匹配 的 规则 的 右 部 RHS 来 蔡 换 这 
个 范畴 符号 ;如 采 目 标 序 列 的 表 中 的 第 一 项 是 单词 ， 而 这 个 单词 与 单 
词 序列 中 的 第 一 个 单词 相同 ， 那 么 ， 束 把 这 两 个 单词 都 抹 挥 ， 并 继续 
进行 查找 ， 直 到 目标 序列 的 表 与 单词 序列 两 者 都 变 空 为 止 。 


在 上 自 顶 癌 下 剖析 过 程 中 ， 要 避免 出 现 左 递归 (left recursion) 的 问 


如 果 在 短语 结构 语法 的 重 写 规 则 中 ， 有 如 下 的 规则 : 
VP > VP NP 


由 于 规则 右 部 RHS 的 第 一 项 与 规则 左 部 LHS 完 全 相同 ， 都 是 NP， 当 用 
RHS 来 重 写 时 ， 就 必然 要 多 次 地 用 RHS 中 的 VP NP 来 重 写 LHS 中 的 
VP， 这 样 ， 替 换 之 后 得 到 的 符号 串 中 总 是 有 VP， 总 是 可 以 用 RHS 中 的 
VP NP 来 蔡 换 VP， 这 样 ， 就 形成 了 左 递 归 。 如 果 在 语法 中 有 左 弟 归 ， 


那么 ， 在 与 其 相应 的 目 左 至 右 、 目 顶 同 下 的 谢 析 程序 中 ， 束 会 出 现 无 
穷 循环 的 恶 采 ， 从 而 使 剖析 引入 攻 途 。 这 时 ， 剖 析 过 程 中 将 会 出 现 如 
下 的 循环 问答 : 


一 现在 我 要 找 查 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 查 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 查 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 


ee 


ee 


为 了 避免 出 现 这 样 的 恶性 循环 ， 在 短语 结构 语法 的 规则 中 ， 每 当 
出 现 左 递归 规则 的 时 候 ， 束 要 用 等 价 的 非 递归 的 规则 来 代 蔡 它 。 这 有 是 
我 们 在 编写 目 顶 同 下 的 谢 析 程序 时 应 该 特别 注意 的 问题 。 


(3) 深度 优先 剖析 与 广度 优先 谢 析 (depth-first parsing and 


breath-first parsing) 


前 面 所 讲 的 各 种 剖析 都 是 深度 优先 剖析 (depth-first parsing) 。 在 
搜索 过 程 中 的 每 一 步 ， 我 们 都 要 作出 猜测 ， 而 且 ， 只 有 在 前 面 一 步 的 
猜测 得 到 结论 以 后 ， 才 有 可 能 探究 下 一 步 猜 测 ， 也 就 是 说 ， 猜 测 要 一 
步 一 步 地 来 进行 ， 在 同一 时 刻 ， 不 可 能 一 起 探究 春 干 个 猜测 。 例 如 ， 
FE XY A) FR Bes SEF RS ETT ER EBEN, 5 RITER EI 


词 “ 菊 ?时 ， 我 们 首 允 猜测 这 个 动词 " 焚 ? 是 不 征文 配 着 它 的 某 个 动词 词 
组 VP 中 的 唯一 内 容 ， 只 有 当 我 们 经 过 探 完 而 判断 这 个 猜测 是 不 正确 的 
之 后 ， 才 有 可 能 猜测 这 个 动词 “ 焚 ” 的 后 面 是 不 是 有 一 个 NP， 并 
且 “ 焚 ”与 这 个 NP 一 起 组 成 一 个 VP。 在 深度 优先 剖析 中 ， 这 两 个 猜测 是 
不 能 同时 地 进行 的 ， 而 只 能 先 探究 一 个 猜测 ， 再 探究 男 一 个 猜测 。 可 
见 ， 深 度 优 移 齐 析 十 一 种 典型 的 顺序 式 剖 析 。 


广度 优先 剖析 (breath-first parsing) 与 深度 优先 剖析 不 同 ， 采 用 
广度 优先 剖析 时 ， 在 剖析 过 程 中 的 同一 时 刻 ， 可 以 同时 保持 大 和 干 个 猜 
测 ， 一 步 判 断 可 以 同时 涉及 到 才 干 个 猜测 。 在 理想 的 情况 下 ， 尺 管 随 
着 时 间 的 推移 ， 有 某 些 猜测 失败 了 ， 但 广度 优先 的 搜索 还 能 保持 男 外 
一 些 猜测 ， 并 且 把 猜测 的 判断 减 缩 到 最 小 的 范围 内 来 进行 。 


下 面 ， 我 们 说 明 如 何 用 广度 优先 训 析 技术 来 剖析 *“ 林 集 玉 欧 诗 
稿 ” 这 个 句子 。 我 们 在 范畴 符号 后 面 加 字母 “a” 或 “b” 只 是 为 了 引用 方 
便 ， 并 不 表示 新 的 范畴 。 


剖析 步骤 如 下 : 


一 把 范畴 符 号 指派 给 句子 中 的 每 一 个 词汇 项 目 。 


MEE: NPa 
焚 ; V 
WEN: NPb 


一 检查 每 一 个 范畴 符号 ， 看 一 看 它们 能 否 单独 充当 短语 结构 语法 中 重 
写 规 则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 的 范畴 符号 所 文 配 。 


NPa: 不 能 
V: 可 被 VPa 支 配 


NPb: 不 能 


一 检查 两 两 相 邻 的 范畴 符号 ， 看 一 看 它们 能 否 充当 短语 结构 语法 中 重 
写 规 则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 的 范畴 符号 所 文 配 。 


NPaV: 不 能 

NPa VPa 可 被 Sa 支配 
V NPb: 可 被 VPb 支 配 
VPa NPb: 不 能 


一 检查 相 邻 的 三 个 范畴 符号 构成 的 三 元 组 ， 看 一 看 它们 能 否 充 当 短 语 
结构 语法 中 重 写 规 则 的 右 部 RHS， 从 而 被 重 写 规 则 的 左 部 LHS 的 范畴 
符号 所 支配 。 


NPa V NPb: 不 能 
VPa VPa NPb: 不 能 
一 检查 在 上 述 过 程 中 ， 从 短语 结构 语法 的 重 写 规则 左 部 而 来 的 那些 新 


的 范畴 符号 ， 看 一 看 它们 能 否 充当 短语 结构 语法 重 写 规 则 的 右 部 
RHS， 从 而 又 被 重 写 规 则 左 部 LHS 的 其 它 范 胃 符号 所 文 配 。 


VPa: 不 能 


VPb: 不 能 


Sa: 不 能 


一 检查 由 范畴 符号 构成 的 新 的 相 邻 偶 对 ， 看 一 看 它们 能 否 充当 短语 结 
构 语法 重 写 规则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 所 文 配 。 


Sa NPa: 不 能 


NPa VPb: 可 被 Sb 支配 | 剖析 成 功 ! | 


我 们 在 设计 广度 优先 的 搜索 算法 时 ， 很 有 必要 研究 一 种 机 制 ， 使 
得 计算 机 把 它 的 时 间 均 匀 地 分 配给 所 搜索 范围 的 不 同 部 分 。 在 简单 的 
广度 优先 剖析 程序 中 ， 我 们 可 以 采用 把 各 种 不 同 的 状态 集中 在 一 个 表 
中 的 办 法 来 达到 这 个 目的 。 在 目 砌 同上 的 广度 优先 剂 析 程序 中 ， 我 们 
可 以 把 所 须要 了 解 的 情况 ， 用 单词 和 范畴 符号 组 成 的 表 加 以 总 结 ， 使 
其 请 晰 地 表达 出 来 。 


第 三 节 ARATE 


左 角 剖析 法 (left-corner parsing method) 是 一 种 把 目 顶 向 下 剖析 
法 和 上 自 底 向 上 剖析 法 结合 起 来 的 剖析 法 。 所 谓 “ 左 角 ” 是 指 表示 句子 名 
法 结构 的 树 形 图 的 任何 子 树 (subtree) 中 左下 角 的 那个 符号 。 


VP 


Det N 
| | M Px, 
the boy NP Prep NP 
| Faa pou 
hits Yi ji with T | 
the dog a rod 


图 4.16 “the boy hits the dog with a rod” 的 树 形 图 


例如 ， 在 表示 句子 “the boy hits the dog with a rod” 的 树 形 图 中 ，the 
是 Det 的 左 角 ，Det 是 NP 的 左 角 ，NP 是 $ 的 左 角 ，hits 是 V 的 左 角 ，V 是 
VP 的 左 角 ，with 是 Prep 的 左 角 ，Prep 是 PP 的 左 角 。 


从 重 写 规则 的 角度 来 看 ,“ 左 角 ? 有 是 重 写 规 则 右边 部 分 的 第 一 个 符 
号 。 如 采 重 写 规则 的 形式 古 A 一 BC， 则 B 束 是 左 角 。 


重 写 规则 A 一 BC 可 以 表示 为 如 下 的 树 形 图 (图 4.17) : 


A 


B C 


图 4.17 重 写 规 则 的 树 形 表示 


JI RAE HEBR PEE. EA MPDDERNHZACGEAOBOC, ÆwE 
后 下 ; ADEGERH BUS ESTE. RAPUICERERNDAXEBOCAA, x 
下 后 上 ; 如果 采用 左 角 剖析 法 ， 其 分 析 过 程 束 应 该 是 gB~A-~C， 是 有 
下 有 上 。 把 数码 记 在 相应 的 结 点 上 ， 这 三 种 剖析 法 的 分 析 顺 序 如 图 
4.18 所 示 : 


A ME ^2 jT 
A(1) 
a in 


B(2) C(3) 


自 底 向 上 分 析 法 
A(3) 


B(1) C(2) 


左 角 分 析 法 
A(2) 


B(1) C(3) 


图 4.18 ”三 种 剖析 方法 比较 


左 角 剂 析 法 的 分 析 从 左 角 B 开 始 ， 然 后 根据 重 写 规 则 ABC， 目 
下 而 上 地 推导 出 A， 最 后 再 目 顶 向 下 地 推导 出 C。 


如 果 我 们 有 如 下 的 上 下 文 无 天 语法 : 


G =1VN,VT, SP 
VN = | S, NP, VP, Det, N, V, Prep | 
VT = | the, boy, rod, dog, hits, with, a | 


> = 5 
S — NP VP (a) 
NP — Det N ( b) 
VP — V NP (e) 
VP — VP PP ( d) 
PP — Prep NP (e) 
Det | the | (fj 
Det— |a | (g) 
N 一 1 boy } (h) 
N — | dog | (i) 
N — 1 rod | (4) 
V | hits } (k) 
Prep — | with | (1) 


ARPA TREE AUN], T6411 FH Ze FR STOR AT PT RIT "the boy hits 


the dog with a rod” ° 


(1) 首先 从 句 首 的 the 开 始 ， 根 据 语法 的 规则 (f) ， 从 规则 (f) 
的 左 角 the， 作 出 Det (图 4.19) ° 


Det 


( f) 
the 


E419 无 


boy... 


剖析 法 1 


(2) 因为 规则 (b) 的 左 角 为 Det， 所 以 ， 从 Det 出 发 ， 选 择 语法 
(b) ， 并 由 此 预测 Det 后 面 的 N (图 4.20) ° 


图 4.20 


左 


剖析 法 2 


(3) 根据 规则 (h) ， 从 boy 作 出 N (图 4.21) ° 


图 4.21 


N?( 预 测 ) 


| om 
boy 


左 


剖析 法 3 


(4) 由 于 boy 的 父 结 点 (father node) 恰好 是 N， 可 见 我 们 对 于 N 
的 预测 是 正确 的 ， 于 是 作出 子 树 NP (图 4.22) © 


图 4.22 ” 左 角 剖析 法 4 


(5) NP 是 规则 (a) 的 左 角 ， 由 NP 选择 规则 (a) ， 并 预测 VP 
(图 4.23) 。 


> ( "a 


NP VP? (Fa) 


hits... 


E423 ” 左 角 剖析 法 5 


(6) 根据 规则 (k) ， 由 hits 作 出 V (图 4.24) ° 


> 


NP VP? 预测, 


V 


| 
Its 


(7) 由 于 V 是 规则 (c) 的 左 角 ， 所 以 选择 规则 (c) ， 并 预测 NP 
(图 4.25) 。 


E424 AAR ATE 


S 


P it 


NP VP? fi) 


人 


VP 
we 
V NP?( 预 测 ) 
the dog... 


图 4.25” 左 角 剖 析 法 7 


(8) 从 the dog 作 成 NP, 对 于 NP 的 预测 得 到 证 实 ， 由 于 NP 得 到 证 
实 ， 因 此 可 继续 证 实 对 于 VP 的 预测 (图 4.26) ° 


P i st 


NP VP?( 预 测 | 


24.26 AAR ATES 


(9) 由 于 VP 还 可 以 是 规则 (d) AA, TA, thedog 之 后 还 
有 with 等 单词 ， 说 明 还 不 能 过 早 地 归 约 ， 需 要 进行 回溯 ， 以 VP 为 规则 
(d) 的 左 角 ， 选 择 规则 (d) 来 预测 PP (图 4.27) e 


"dii 


NP VP?( 预 测 ) 


VP 
yar 
VP PP?( 预 测 ) 
a. 
V NP 


LNW ÆA with a rod... 


E427 AAR ATES 


(10) 对 于 VP 的 预测 得 到 证 实 ， 于 是 ， 完 成 句子 S (图 4.28) ° 


pe x Ye 
NP VP 
ZN " d lt 


图 4.28 左 角 剖析 法 10 


上 述 谢 析 法 中 都 使 用 了 回溯 。 当 输入 的 符号 串 属 于 这 种 语法 所 摘 
述 的 语言 时 ， 加 入 回溯 机 制 能 够 保证 输入 符号 串 被 接受 。 但 是 ， 当 输 
入 的 符号 串 不 属于 这 种 语法 所 摘 述 的 语言 时 ， 通 过 多 次 回调 而 没有 新 
的 选择 可 以 回溯 ， 输 入 符 喜 串 融 将 被 拒绝 。 系 统 回 漳 能 够 保证 算法 的 
正确 性 ， 但 回溯 同时 也 夹 着 大 量 的 重复 和 多 余 的 计算 。 


美国 计算 语言 学 家 马尔 库 斯 CM. Marcus) 于 1980 年 提出 用 人 工 的 
方法 对 归 约 的 条 件 加 以 控制 ， 从 而 避免 了 回溯 。 这 束 是 “Marcus 确 定性 
分 析 算 法 ”。 马 尔 库 斯 的 确定 性 算法 由 两 部 分 组 成 : 模式 部 分 和 行为 部 
分 。 模 式 部 分 说 明 栈 及 缓冲 区 的 内 容 在 什么 样 的 情况 下 ， 分 析 算 法 可 
以 执行 行为 部 分 所 表明 的 操作 。 马 尔 库 斯 引入 的 缓冲 区 是 输入 概念 的 
推广 ， 它 从 左 到 右 按 顺序 存放 一 些 已 经 建成 的 句子 成 分 ， 人 允许 查看 的 
绥 冲 区 的 内 容 是 有 限 的 ， 这 就 避免 了 规则 的 复杂 化 。 在 行为 部 分 允许 
的 操作 ， 有 的 类 似 于 归 约 、 移 进 ， 有 的 将 栈 顶 元 素 移 到 缓冲 区 ， 有 的 
将 缓冲 区 的 成 分 移出 ， 挂 到 栈 顶 所 放 成 分 的 结 点 之 下 ， 等 等 。 


美国 学 者 伊 尔 利 (J. Earley) 于 1968 年 在 他 的 博士 论文 中 提出 了 
Earley 算 法 (Earley algorithm) 。 这 种 算法 在 左 角 剖析 法 的 基础 上 ， 把 
自 项 向 下 剖析 法 和 自 底 向 上 前 析 法 结合 起 来 ， 在 分 析 过 程 中 交替 地 使 
用 这 两 种 剖析 法 。 首 先 目 顶 癌 下 预测 某 个 语言 成 分 的 起 点 ， 找 出 起 点 
之 后 ， 再 自 底 向 上 长 成 一 棵 子 树 。Earley 算 法 提出 了 “点 规则 ”， 这 
种 “点 规则 ”采用 在 规则 中 加 点 的 方式 来 系统 地 表示 已 经 建成 的 结构 部 
分 和 有 得 进一步 分 析 的 结构 部 分 ， 从 而 步步为营 地 从 左 到 右 对 句子 进 
行 分 析 ， 提 高 了 分 析 的 效率 。 马 丁 - 凯 依 的 线 图 分 析 法 ， 束 是 在 Earley 
算法 的 基础 上 提出 来 的 。 由 此 我 们 可 以 看 出 从 事 目 然 语言 处 理 的 学 者 
们 在 研究 短语 结构 语法 的 分 析 算 法 方面 所 做 的 艰 藻 卓绝 的 努力 。 


第 四 节 ”CKY 算 法 


CKY 算 法 是 Cocke-Kasami-Younger 算 法 的 缩写 。 这 是 一 种 并 行 的 
句法 剖析 算法 。CKY 算 法 是 以 乔 姆 斯 基 范 式 (Chomsky normal form) 
为 描述 对 象 的 句法 谢 析 算法 。 乔 姆 斯 基 范 式 的 重 写 规 则 形式 为 


A > BC 


其 中 ，A、B、C 都 是 非 终极 符号 。 乔 姆 斯 基 范 式 把 单个 的 非 终极 符号 
重 写 为 两 个 非 终极 符号 B 和 C， 反 映 了 目 然 语言 的 二 分 特性 ， 在 语言 信 
轧 处 理 中 便于 用 二 又 树 来 表示 目 然 语言 的 数据 结构 ， 更 加 适合 于 描述 


目 然 语 言 。 


显而易见 ， 乔 姆 斯 基 范 式 的 重 写 规则 是 上 下 文 无 关 的 短语 结构 语 
法 的 重 写 规则 A > o 中 ， 当 o=BC 时 的 一 种 特殊 情况 。 


由 于 任何 的 乔 姆 斯 基 范 式 与 上 下 文 无 天 的 短语 结构 语法 都 是 等 价 
的 ， 因 此 ， 这 样 的 限制 并 不 失 一 般 性 。 


对 于 英语 句子 “the boy hits a dog” (那个 男孩 儿 打 狗 ) ， 使 用 CKY 
分 析 法 ， 我 们 可 以 得 到 如 下 的 表 (图 4.29) : 


the boy hits a dog 
图 4.29 ”CKY 算 法 中 的 表 


在 这 个 表 中 ， 行 方向 (横向 ) 的 数字 表示 单词 在 句子 中 的 位 置 ， 列 方 
向 (AL) 的 数字 表示 该 语言 成 分 所 包含 的 单词 数 。 语 言 成 分 都 装 在 
HES (box) 内 ， 我 们 用 bi 来 表示 处 于 第 i 列 第 j 行 的 框 子 的 位 置 。 这 
样 ， 每 一 个 语言 成 分 的 位 置 就 可 以 确定 下 来 。 例 如 ， 


Det€b, ; 表示 Det 处 于 第 1 列 第 1 行 ， 
N€b; , 表示 N 处 于 第 2 列 第 1 行 ， 
V€b; , 表示 V 处 于 第 3 列 第 1 行 ， 
Det€b, 1 表示 Det 处 于 第 4 列 第 1 行 ， 
N€b; , 表示 N 处 于 第 5 列 第 1 行 


这 样 一 来 ， 处 于 第 1 列 第 2 行 的 NP 的 位 置 可 用 bi , 表示 (NPEb > 
) ， 这 种 记 法 说 明 ， 这 个 NP 处 于 句 首 ， 包 含 2 个 单词 (the 和 boy) , th 
就 是 说 ， 这 个 NP 是 由 Det 和 N 组 成 的 ， 处 于 第 4 列 第 2 行 的 NP 的 位 置 可 
用 bs , 表示 (NPEbs , )， 这 种 记 法 说 明 ， 这 个 NP 处 于 第 4 个 词 的 位 置 ， 


包含 2 个 单词 (a 和 dog) ， 也 就 是 说 ， 这 个 NP 是 由 Det 和 N 组 成 的 ;处 
于 第 3 列 第 3 行 的 VP 的 位 置 可 用 bs ,表示 (VP€b,4) ， 这 种 记 法 说 
明 ， 这 个 VP 处 于 第 3 个 词 的 位 置 ， 包 含 3 个 单词 (hits a 和 dog) , E 
是 说 ， 这 个 VP 是 由 V (包含 1 个 词 ) 和 NP (包含 2 个 词 ) 组 成 的 ， 处 于 
第 1 列 第 5 行 的 S 的 位 置 可 用 bi 。 表示 (SEb, 5) ， 这 种 记 法 说 明 ， 这 个 
S 处 于 句 首 ， 包 含 5 个 单词 (the, boy, hits, a 和 dog) ， 也 就 是 说 ， 这 个 $ 
是 由 NP (包含 2 个 单词 ) 和 VP (包含 3 个 单词 ) 组 成 的 。 这 些 框 子 里 
的 标记 ， 明 确 地 说 明了 这 个 句子 中 的 句法 结构 关系 ， 因 此 ， 如 果 我 们 
能 够 通过 有 限 步 骤 造 出 这 样 的 表 ， 葡 等 于 完成 了 句子 的 句法 结构 分 
NT e 


由 于 语法 规则 都 用 乔 姆 斯 基 范 式 表 示 ， 因 此 ， 在 语法 规则 A BC 
中 ， 对 于 某 个 k(1<k<j) 来 说 ， 如 采 biy 中 包含 B，biyk jx PEASC, Moj 
中 必定 包含 A。 也 就 是 说 ， 如 果 从 输入 句子 中 的 第 i 个 单词 开始 ， 造 成 
了 表示 由 k 个 单词 组 成 的 成 分 B 的 子 树 (这 时 ，B 的 长 度 为 k， 其 首 词 标 
号 为 第 i 列 ， 末 词 标 号 第 itk-1 列 ， 例 如 ， 如 有 果 B 的 长 度 为 4， 如 首 词 标 
号 为 3， 则 末 词 标号 为 i+k-1=3+4-1=6， 即 这 4 个 词 的 标号 分 别 为 3，4， 
5，6) ， 从 第 itk 个 单词 开始 ， 造 成 了 表示 由 j-k 个 单词 组 成 的 成 分 C 的 
TB (这 时 ，C 的 长 度 为 jj-k， 其 首 词 标 号 为 第 itk 列 ， 末 词 标 号 为 第 
ij-1 列 ， 例 如 ， 如 果 A 的 长 度 j=6，C 的 长 度 为 jk=6-4=2， 则 其 首 词 标 
号 为 tk=3+4=7， 末 词 标 号 为 itj-1=3+6-1=8) ， 那 么 ， 就 可 以 作出 如 下 
的 表示 A 的 树 形 图 (214.30) : 


il i itk—1 i+k ij-l itj 
LL] LLL | 
长 度 为 k 长 度 为 jk 
TRE 


图 4.30 CKY 算 法 中 的 标号 


例如 ， 在 上 表 的 bl , 中 包含 NP，bj ; 中 包 售 Det，b, ; 中 包含 N， 这 反映 
了 语法 规则 NP > Det N 的 情况 。 这 时 ，k=1, i=1,j=2。 


CKY 算 法 就 是 顺 次 构造 上 述 表 的 算法 ， 当 输入 句子 的 长 度 为 n 
时 ，CKY 算 法 可 分 为 如 下 两 步 。 

第 一 步 : 从 i=1 开 始 ， 对 于 长 度 为 n 的 输入 句子 中 的 每 一 个 单词 Wi 
， 显 然 都 有 重 写 规 则 A~ Wi ， 因 此 ， 顺 次 给 每 一 个 单词 Wi 相应 的 非 终 
极 符号 A 记 入 框 子 bl; 中 。 在 我 们 的 例句 “the boy hits a dog” 中 ， 根 据 相 
应 的 重 写 规则 ， 顺 次 把 Det 记 入 bill; 中 ， 把 N 记 入 bi 中 ， 把 V 记 入 bs 1 
中 ， 把 Det 记 入 b4; 中 ， 把 N 记 入 bs; 中 。 


第 一 步 相 当 于 确定 输入 句子 中 各 个 单词 所 属 的 词类 ， 如 采 一 个 单 
词 属于 才干 个 词类 ， 可 以 把 它 所 属 的 词类 都 记 入 表 中 。 


第 二 步 : 对 于 1<h<j 以 及 所 有 的 i， 造 出 pin ， 这 时 ， 包 含 bij 的 非 


bij = {APT Fisk<j, BASED, F, CHR TEbu jy 中 ， 并 
且 ， 存 在 语法 规则 A -> BC} ° 


第 二 步 相 当 于 构造 句子 的 句法 结构 。 根 据 语 法 的 重 写 规 则 ， 从 句 
首开 始 ， 顺 次 由 1 到 n 取 词 构造 框 子 b;; ， 如 果 框 子 bl 中 包含 开始 符号 
S, EWE, SEbin ， 那 么 ， 束 说 明 输 入 句子 是 可 以 接受 的 。 


例如 ， 根 据 规则 NP-~DetN 以 及 detEbi; FINEb,, ， 可 知 此 时 
i=1，k=1，j=2， 因 此 ，NP 的 框 子 的 编号 应 为 bj , ; 根据 规划 NP 一 Det 
N 以 及 DetEbs ; FINGb., ， 可 知 此 时 i=4，k=1，j=2， 因 此 ， 这 个 NP 的 
框 子 的 编号 应 为 bs ; 根据 规则 VP-~V NP 以 及 VEbs , FINPEb, , ,可 
知 此 时 i=3，k=1，j=3， 因 此 ，VP 的 框 子 的 编号 应 为 by 3 ;根据 规则 
S^NP VP 以 及 NPEb1 > 和 VPEb3 : ， 可 知 此 时 i=1，k=2，j=5， 因 此 ， 
S 的 框 子 的 编号 bs , 。 由 于 句子 长 度 n=5， 因 此 ， 有 SEb 1 ， 所 以 输入 
句子 被 接受 ， 分 析 成 功 。 


下 面 我 们 使 用 CKY 算 法 来 分 析 更 加 复杂 的 句子 。 


如 打上 下 文 无 关 语 法 具有 如 下 的 规则 : 


S > NP VP 
NP > PrN 
NP ^ DET N 


NP > N WH VP 

NP ^ DET N WH VP 
VP 一 V 

VP > V NP 

VP > V that S 


我 们 用 这 个 语法 来 分 析 句 子 “the table that lacks a leg hits Jack" ° 
e 把 重 写 规则 转换 为 乔 姆 斯 基 范 式 : 

S ~ NP VP 
NP > PrN 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP > Jack | John | Maria 
NP ^ DETN 


NP > N WHVP 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP > NCL 
CL ^ WH VP 


NP ^ DET N WH VP 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP ^ NPCL 
NP ^ DETN 
CL ^ WH VP 


这 里 CL 是 一 个 WH 从 名 (WH clause) ， 它 由 that 和 VP 组 成 。 


VP = V 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


VP > cough | walk |... 
VP > V NP 
VP > V that SEC T WU A ETP REL, ACR: 
VP > V TH 
TH > WHS 
这 里 TH 是 一 个 that 从 句 ， 它 有 that 和 S 组 成 。 
e 计算 非 终极 符号 bi 的 列 号 和 行 号 : 
一 一 按照 句子 中 的 词 序 排列 表示 词类 (POS) 的 非 终极 符号 bi 并 
计算 它们 的 列 号 和 行 号 : 


“The table that lacks a leg hits Jack” 
DET N WH V DET N V NP 
bi b, b, b, bs, ba b; bs 
一 一 计算 表示 短语 的 非 终极 符号 bi 的 列 号 和 行 号 ， 得 到 如 下 的 方 
框 和 表 (图 4.31) : 


VP2( VP—VNP) 
by; 


| NP2 (NP DET N) VPI (VP—V NP) 
bs, 


DET 
bs 
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| 


其 中 ， 各 个 方 框 中 的 b; 计算 详情 如 下 : 


bi (NP1): i=1,j=1+1=2 
bi (NP2): i=5, j=1+1=2 
bi (VP1): i=7, j=1+1=2 
bi (VP2): i=4, j=1+2=3 
bi (CL): i=3, j=1+3=4 
bi (NP3): i=1, j=2+4=6 
bi (S): i=1, j=2+6=8 


这 个 句子 的 长 度 为 8， 我 们 得 到 的 $ 的 方 框 中 的 行 号 也 为 8， 因 此 
句子 分 析 成 功 。 


我 们 使 用 CKY 算 法 构造 出 上 图 的 表 中 的 各 个 结 点 可 以 系 连 起 来 形 
成 一 个 金字 塔 (pyramid) ， 这 个 金字 塔 也 就 是 一 个 树 形 图 ， 它 可 以 表 
示人 句子 的 结构 。 


现在 ， 我 们 使 用 CKY 算 法 来 分 析 句 于 “book that flight" ° 

上 下 文 无 关 语 法 的 规则 与 前 面 使 用 过 的 规则 相同 ， 它 们 是 : 
1.S ~ VP 

2. VP > Verb NP 

3. NP > Det Nominal 


4. Nominal > Noun 


由 于 规则 -1 的 右手 边 只 包含 一 个 单独 的 非 终 极 符号 VP， 这 不 是 乔 
姆 斯 基 艺 式 ， 但 是 ， 规 则 -2 是 乔 姆 斯 基 范 式 ， 因 此 ， 我 们 把 规则 -1 和 
规则 -2 结合 起 来 ， 形 成 如 下 的 符合 乔 姆 斯 基 范 式 有 要 求 的 规则 : 


S > Verb NP 


规则 -4 的 右手 边 也 只 包含 一 个 单独 的 非 终极 符号 ， 也 不 古 错 姆 斯 
范式 ， 但 是， 规则 -3 是 乔 姆 斯 基 范 式 ， 因 此 ， 我 们 把 规则 -4 和 规则 -3 
合 起 来 ， 形 成 如 下 的 符合 乔 姆 斯 基 苑 式 要 求 的 规则 : 


ne Bu 


NP > Det Noun 


现在 ， 这 个 上 下 文 无 关 语法 的 规则 如 下 : 


S > Verb NP 
NP > Det Noun 


这 些 规则 都 符合 乔 姆 斯 基 范 式 的 要 求 了 。 根 据 这 样 的 规则 使 用 
CKY 算 法 分 析 上 述 句 子 的 结果 如 下 (图 4.32) : 


S(S—Verb NP) 
bis 
ie 
NP (NP—? Det Noun) 
b» 
| ~ 


Det Noun 
b; b. 


Book that flight 


图 4.32 ”句子 的 方 框 和 表 2 


其 中 ， 各 个 方 框 中 的 b; 计算 详情 如 下 : 


bi (NP): i=2, j=1+1=2 
bi (S): i=1, j=1+2=3 


用 CKY 算 法 造 出 的 金字 塔 也 整 是 表示 句子 结构 的 树 形 图 。 可 以 看 
出 ，CKY 算 法 古 一 种 简单 而 有 效 的 算法 。 


CKY 算 法 由 小 型 分 析 树 开始 逐渐 扩大 ， 同 样 的 分 析 树 绝 不 重复 运 
算 ， 不 需要 进行 回溯 ， 规 则 都 采用 乔 姆 斯 基 范 式 ， 这 是 它 的 优越 之 
处 o 


短语 结构 语法 具有 结构 请 晰 、 人 简洁 明确 、 吻 于 操作 等 优点 ， 给 
然 语言 的 计算 机 处 理 市 来 了 许多 方便 。 因 此 ， 上 述 基 于 短语 结构 语法 
的 目 动 句法 分 析 方 法 ， 在 目 然 语言 处 理 中 得 到 广泛 的 应 用 ， 目 前 仍然 
有 着 很 强 的 生命 力 。 
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第 五 章 AJN 


目 然 语言 处 理 的 绝 大 多 数 或 者 全 部 的 研究 都 可 以 看 作 是 在 其 中 的 
某 个 层面 上 消解 歧义 (disambiguation) 。 这 些 歧义 包括 词汇 上 下 义 、 结 
构 歧 义 。 本 章 讨 论 结构 歧义 (structural ambiguity) ° 


在 采用 第 三 章 中 所 述 的 剖析 技术 来 处 理 目 然 语言 的 时 候 ， 第 各 会 
受到 结构 卜 义 的 干扰 。 


如 果 我 们 想 把 某 个 意思 输入 计算 机 ， 而 存在 着 邦和 干 个 不 同 的 结构 
来 表示 这 个 意思 ， 那 么 ， 我 们 就 说 这 样 的 输入 是 有 结构 卜 义 的 。 

我 们 来 考虑 口语 中 的 一 个 句子 Imade her duck。 这 个 句子 可 能 有 5 
个 不 同 的 意思 (或 许 更 多 ) ， 以 下 是 歧义 的 阁 干 实例 : 


(1.1) Icooked waterfowl for her (RRE ttl zz ERS 
F) 


(1.2) I cooked waterfowl belonging to her (3:7; 
饪 属于 她 的 鸭子 ) 


(1.3) Icreated the plaster (?) duck she owns (我 
把 她 的 石膏 |?) 鸭子 作 了 创新 ) 


(1.4) I caused her to quickly lower her head or 


d (我 使 好 很 快 地 把 她 的 头 或 者 身体 放 低 一 


(1.5) I waved my magic wand and turned her into 
undifferentiated waterfowl (我 挥动 魔杖 把 她 变 成 
了 一 只 人 们 一 点 儿 也 看 不 出 破绽 的 鸭子 ) 


这 些 不 同 的 意思 都 是 由 于 歧义 引起 的 。 首 先 ，duck 和 her 的 词类 在 
形态 或 句法 上 是 有 歧义 的 。duck 可 以 是 动词 或 名 词 ， 而 her 可 以 是 表示 
给 予 格 的 代词 或 表示 所 属 格 的 代词 。 其 次 ，make 在 语义 上 是 有 歧义 
的 ， 它 的 意思 可 以 是 create (创造 ) ， 也 可 以 是 cook (AVE) 。 最 后 ， 
动词 make 还 可 以 有 不 同 的 句法 歧义 。make 可 以 作 及 物 动词 ， 带 直接 宾 
语 (1.1) ; make 也 可 以 作 双 及 物 动词 ， 带 两 个 宾语 (15) ， 表 示 把 
第 一 宾语 (her) 变 成 了 第 二 个 宾语 (duck) ; make 还 可 以 带 一 个 直接 
宾语 和 一 个 动词 (1.4) ， 表 示 使 直接 宾语 (her) 去 进行 某 个 动作 

(duck) 。 此 外 ， 在 口语 的 句子 中 ， 还 可 以 有 一 种 更 为 深刻 的 歧义 ， 
第 一 个 词 I 可 以 被 理解 为 eye， 或 者 第 二 个 词 made 可 以 被 理解 为 maid 。 
这 样 ， 层 义 束 更 加 复 洒 了 。 


歧义 是 目 然 语言 中 普 裔 存在 的 现象 。 早 在 两 三 千年 之 前 ， 古 希腊 
哲学 家 亚 里 士 多 德 (Aristotélés) WEW LLR Im) P, R 
讨 了 自然 语言 的 歧义 问题 ， 亚 里 士 多 德 对 歧义 的 研究 是 为 哲学 辩论 中 
的 语言 应 用 服务 的 。1930 年 ， 燕 卜 冰 (W.Empson) 发 表 了 《上 收 义 的 
七 种 类 型 》 (Seven Types of Ambiguity) 一 书 ， 开 始 从 语言 理论 的 角度 
研究 歧义 问题 。1971 年 ， 科 艾 (J.G. Kooij 发 表 了 专著 《自然 语言 的 


歧义 》 (Ambiguity in Natural Language ) ， 更 进一步 系统 地 来 研究 自 
然 语言 的 歧义 问题 。 


在 现代 语言 学 的 发 展 史 上 ， 上 层 义 问题 总 是 成 为 某 个 新 的 语言 学 派 
岂 起 时 问 传 统 阵 地 进击 的 突破 口 。 类 国 描写 语言 学 和 乔 姆 斯 基 的 转换 
生成 语法 都 非常 注意 卜 义 问题 的 研究 。 


目 然 语 言 的 歧义 问题 ， 实 质 上 古 意义 与 形式 之 间 的 矛盾 问题 。 同 
一 形式 与 不 同 的 意义 相 联 系 ， 束 必然 会 产生 卜 义 ， 这 是 目 然 语 言 不 同 
于 人 工 语言 的 特点 之 一 。 托 马 斯 (L. Thomas) 指出 ， 自 然 语言 与 其 他 
任何 二 值 逻辑 通讯 系统 的 根本 区 别 ， 束 在 于 目 然 语言 有 歧义 。 


同形 歧义 的 研究 有 助 于 揭示 同一 形式 隐 含 着 的 细微 差异 ， 从 而 提 
高 人 们 对 语言 现象 的 认识 ， 推 动 语言 研究 方法 的 改进 。 


在 目 然 语 言 处 理 中 ， 同 形 歧义 古 一 个 不 能 回避 而 且 也 无 法 回避 的 
问题 。 同 形 歧义 往往 使 得 自然 语言 的 目 动 神 析 进退 维 合 ， 成 为 目 然 语 
言 计算 机 处 理 的 巨大 障碍 。 


在 本 划 中 ， 我 们 将 讨论 结构 歧义 、 科 技术 语 与 日 前 生活 中 的 潜在 
歧义 等 问题 ， 并 介绍 结构 疏 义 消解 的 一 些 方 法 。 


第 一 六 ” 绪 构 歧义 现象 


语言 中 的 同形 歧义 既 反 映 在 单词 上 ， 又 反映 在 由 单词 组 成 的 各 种 
结构 上 ， 形 成 词汇 歧义 (lexical ambiguity) 和 结构 歧义 (structural 
ambiguity) . 


打开 任何 一 本 英语 词典 ， 我 们 可 以 发 现 ， 许 多 单词 都 可 能 属于 几 
个 不 同 的 词类 。 


例如 ，order 可 作为 名 词 N， 其 含义 是 次序， 顺序 *， 又 可 作为 动 
HV, EAER, ZH”, book FHEIN, HEUER”, X 
可 作为 动词 V， 其 含义 是 “预定 "。 


这 束 古 英语 中 单词 的 兼 类 现象 ， 兼 类 束 是 一 种 词汇 歧义 。 


英语 的 形态 标志 -s 也 有 歧义 ， 如 末 加 在 名 词 之 后 ， 表 示 复 数 ， 如 
林 加 在 动词 之 后 ， 则 表示 现在 时 单数 第 三 人 称 ， 这 也 是 一 种 词汇 攻 


如 果 单 词 X 加 上 -er， 形 成 *Xer”， 也 会 产生 歧义 ， 有 时 其 含义 
是 “one that Xes”。 例 如 ，clean (清洁 的 ) 加 上 -er 形成 cleaner， 其 含义 
可 为 “ 清 涪 器 *， 也 可 为 “更 干净 ”，smooth (平滑 的 ) 加 上 -er 形成 
smoother， 其 含义 可 为 “ 修 光 工具 ”， 也 可 为 “更 光 请 ”。 这 也 是 一 种 词汇 
BX ° 


ae 


关于 词汇 收 义 ,我们 在 词汇 的 目 动 处 理 中 已 经 介绍 过 ， 效 不 


yli o 


如 果 一 个 语法 可 以 把 一 个 以 上 的 剖析 指派 给 同一 个 句子 ， 那 么 ， 
我 们 就 说 ， 这 个 句子 具有 结构 歧义 (structure ambiguity) ° iB PAY 
结构 歧义 有 多 种 ， 归 纳 如 下 : 


1. 附着 歧义 (Attachment ambiguity) 


a) PP 附着 歧义 (PP attachment ambiguity) 


在 “VP + NP1 + Prep +NP2” 这 样 的 结构 中 ， 介 词 词组 PP (Prep + 
NP2) 既 可 以 作为 名 词 词组 NP1 的 定语 ， 又 可 以 作为 动词 词组 VP 的 状 
语 ， 这 就 产生 了 歧义 。 


例如 ， 人 句子 “I saw a boy with a telescope” 中 的 NP2“a telescope”， 当 
它 作 为 NP1“a boy” 的 定语 时 ， 句 子 的 信义 是 “我 看 到 了 一 个 带 着 望远镜 
的 男孩 ”( 试 比较 : “I lost the ticket to Berlin”|[ 我 丢失 了 去 柏林 的 车 
) ; 当 它 作为 VP“saw” 的 状语 时 ， 句 子 的 含义 是 “我 用 望远镜 看 见 
一 个 男孩 ”( 斌 比较: “I send the ticket to Berlin” | 我 往 柏 林 寄 出 了 车 
) 


X8 -| o 


又 如 ， 如 果 我 们 有 英语 句子 “They made a report about the 
ship” 和 “On the ship, they made a report”， 这 两 个 句子 是 没有 卜 义 的 ， 
但 是 ， 如 果 我 们 把 它们 改写 成 句子 “They made a report on the 
ship", “on the ship” 这 个 PP 可 以 修饰 动词 made ， 也 可 以 修饰 名 词 
report， 束 产生 了 PP 附着 卜 义 。 我 们 可 以 把 这 种 PP 附着 疏 义 写 为 如 下 
形式 : 


1) They made a report about the ship. 
On the ship, they made a report. 
^ They made a report on the ship. 


BAH MN AS E SC OA, BASRA AIP e COLE o oU PR 
歧义 可 用 树 形 图 直观 地 表示 如 下 : 


2) 


6) 


NP VP NP VP 
Pronoun V NP PP Pronoun V NP 
网 国生 本 "MEM m 
They made Det Nom P NP They | made Det Nom 
MN D | 
a N on Det Nom a Nom PP 
| E 
report the N | | NP 
M report on Det a 
the N 
ste 
PP 修饰 动词 V PP 修饰 名 词性 成 分 Nom 


图 5.1 ”PP 附着 歧义 


男 外 的 例子 还 有 : 


They made a decision concerning the boat. 

On the boat, they made a decision. 

> They made a decision on the boat. 

He drove the car which was near the post office. 
Near the post office, he drove the car. 

^ He drove the car near the post office. 

They are walking around the lake which is situated in the park. 
In the park, they are walking around the lake. 

^ They are walking around the lake in the park. 
He shot at the man who was with a gun. 

With a gun, he shot at the man. 

^ He shot at the man with a gun. 


The policeman arrested the thief who was in the room. 


In the room, the policeman arrested the thief. 


^ The policeman arrested the thief in the room. 


E84} (Church) 和 帕 提 尔 (Patil) (1982) 证 明了 ， 在 带 多 个 介 

词 短 语 PP 的 名 词 短 语 中 ， 名 词 短 语 剖 析 结 果 的 歧义 的 数量 随 着 介词 短 

语 PP 的 数量 的 增加 而 增加 ， 其 增加 速率 与 算术 表达 式 的 插入 数 

(number of parenthesization) 相同 。 这 个 插入 问题 是 按照 Catalan 数 

(Catalan number) 以 指数 增长 的 。 如 果 用 C (n) 表示 Catalan 数 ， 那 
么 ， 其 计算 公式 为 : 


Cin) = i/a +12") 
n 


1 2n( 2n -1)...¢n +1) 
x — —————— —— ee —!À— — a 
n+1 n! 
下 面 的 表 显 示 了 简单 名 词 短 语 的 剖析 歧义 的 数量 与 它 所 带 的 介词 
短语 的 数量 之 间 的 函数 关系 。 


b) zia X (Gerundive attachment ambiguity) 


英语 句子 中 的 动 名 词 可 能 修饰 中 心动 词 ， 作 为 动词 的 状语 ， 也 可 
能 作为 动词 宾语 从 句 中 的 谓语 ， 从 而 引起 结构 歧义 。 


PP 的 数量 NP 剖析 结果 的 数量 


2 
3 
4 
2 
6 
7 
8 
9 


图 5.2 ”NP 剖析 结果 与 PP 的 函数 关系 


例如 。 在 句子 “We saw the Eiffel Tower flying to Paris” 中 ， 动 名 词 
短语 “flying to Paris” 可 能 修饰 动词 “saw”， 作 为 “saw” 的 状语 ， 句 子 的 意 
思 是 “我 们 飞 到 巴黎 时 看 到 了 埃菲尔 铁塔 *， 但 是 ，“flying to Paris” 也 可 
能 作为 动词 “saw” 的 从 句 “the Eiffel Tower flying to Paris” 中 的 谓语 ， 句 
子 的 意思 是 “我 们 看 到 埃菲尔 铁塔 正 向 巴黎 飞 来 *。 当 然 ， 后面 这 种 情 
况 只 在 神话 世界 或 者 童话 世界 中 才 可 能 发 生 。 


另外 的 例子 还 有 : 


2) I saw that a boy was swimming in the river. 
I saw a boy who was swimming in the river. 
I saw a boy while I was swimming in the river. 
> I saw a boy swimming in the river. 
3) Inoticed that the man was smoking in the corridor. 
I noticed the man who was smoking in the corridor. 
I noticed the man while smoking in the corridor. 


^ I noticed the man smoking in the corridor. 


c) 局 部 歧义 (local ambiguity) 


如 条 整个 的 句子 是 没有 歧义 的 ， 但 是 这 个 句子 中 的 某 些 部 分 在 章 
析 过 程 中 可 能 是 有 歧义 的 ， 这 时 ， 殊 会 发 生 局 部 卜 义 。 


Pla, F “book that flight" ei IE AY, (Boe, Ente 
中 ， 当 谢 析 程序 扫描 到 单词 "book” 的 时 候 ， 可 能 辨 不 清 这 个 book 有 是 动 
词 还 是 名 词 ， 在 这 种 情况 下 ， 就 应 该 采用 回溯 (backtracking) 或 者 并 
行 分 析 (parallelism) 的 办 法 ， 同 时 考虑 到 两 种 可 能 的 剖析 。“book” 实 
际 上 是 一 个 兼 类 词 ， 如 果 我 们 在 形态 分 析 的 时 候 ， 束 进行 了 兼 类 
Tl “book” HIE SCA, BAY LAC USD IURE Fer BBG XC [RT o 


2 并 9] HE X ( Coordination 
ambiguity) 


FF INI X I Hand 5 EB RI X. o SEFA Sandi HR], H Fand 
的 管辖 范围 不 同 ， 而 影响 到 层次 结构 的 不 同 ， 从 而 产生 结构 歧义 。 


例如 ， 我 们 在 第 一 章 中 提 到 的 例子 “old men and women"? n] tft 
为 “年 老 的 男人 和 所 有 的 女人 ”， 这 时 ， 层 次 结构 为 ( (old men) and 
women) ，and 与 old 无 天 ， 也 可 解释 为 “所 有 年 老 的 男人 和 所 有 年 老 的 
女人 ”， 这 时 ， 层 次 结构 为 (old (men and women) ) ，and 与 old 有 
e o 


Pa eH IER CA, KA MATEA HA: 


1) She looks care of old men and old women. 


She looks care of women and old men. 
^ She looks care of old men and women. 
2) Mr. John is a scientist of great fame and a professor of great fame. 
Mr. John is a professor of great fame and a scientist. 
^ Mr. John is a scientist and a professor of great fame. 
3) Someone tells me he's cheating, and I can't do anything about it. 
Someone tells me that he's cheating and that I can't do anything 
about it. 
^ Someone tells me he's cheating and I can't do anything about it. 
4) John will go, or Dick and Tom will go. 
John or Dick will go, and Tom will go. 


^ John or Dick and Tom will go. 


3. SMBS eM (Noun-phrase 


bracketing ambiguity) 


当 两 个 或 两 个 以 上 的 名 词组 成 词组 时 ， 对 整个 名 词 词组 的 含义 往 
往 可 以 作 不 同 的 解释 ， 束 会 产生 结构 收 义 。 


例如 ， 由 名 词 widget 〈《 作 附件 用 的 小 机 械 ) 和 名词 hammer (fE 
T) 组 成 的 名 词 词 组 widget hammer, ， 既 可 以 理解 为 “widget used as 
hammer”( 作 锤子 用 的 小 机 械 ) =, SC n] BE fN “hammer for hitting 
widget”〈 锤 击 小 机 械 的 锤子 ) ， 从 而 产生 歧义 ;如 果 在 前 面 再 加 上 一 
个 名 词 town (城市 ) ， 组 成 名 词 词 组 town widget hammer， 其 层次 结构 
可 分 析 为 ( (town widget) hammer) ， 又 可 分 析 为 (town (widget 


hammer) ) ， 这 样 的 名 词 词组 的 歧义 就 更 为 严重 了 。 这 种 结构 歧义 是 
由 于 层次 不 同 造 成 的 ， 而 层次 可 以 使 用 括号 来 表示 ， 因 此 ， 我 们 把 这 
种 卜 义 叫做 “名 词 短语 括号 歧义 ”。 


当 形 容 词 修辞 名 词 短语 的 时 候 ， 也 会 发 生 类 似 的 结构 歧义 问题 。 


例如 ， 在 名 词 短 语 “ADJ + N1 + N2” 中 ， 形 容 词 ADJ 可 能 修饰 
N1+N2， 也 可 能 只 修饰 N1， 从 而 形成 上 收 义 。 第 一 种 情况 可 用 括号 表示 
为 NP (ADJ (NP (NIN2) ) ) 。 第 二 种 情况 可 用 括号 表示 为 NP 
(NP (ADJN1) N2) 。 这 种 歧义 可 由 下 图 说 明 : 


NP(ADJ(NP(NI N2))  NP(NP(ADJ N1) N2). 
NP NP 
Adj NP NP 
NI N2 ADJ NI 
图 5.3 ”名 词 短语 括号 歧义 


N2 


下 面 是 名 词 短 语 括号 歧义 的 例 季 ， 箭 头 后 面 的 句子 是 有 名 词 短语 
括号 歧义 的 : 


1) The salesman who sells old cars is busy. 
The old salesman who sells cars is busy. 
^ The old car salesman is busy. 
2) He is a Department Head, who is from England. 
He is Head of the English Department. 
> He is an English Department Head. 


如 果 在 一 个 英语 句子 中 ， 既 包含 有 “VP + NP1 + Prep + NP2” 这 样 
的 结构 ， 其 中 的 NP1 或 NP2 又 是 由 若干 个 名 词组 合 而 成 的 名 词 词组 ， 
并 且 还 包含 连接 词 and， 那 么 ， 这 个 句子 的 下 义 将 成 倍 地 增长 ， 其 剖析 
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以 上 是 英语 中 三 种 主要 的 疏 义 结构 ， 此 外 ， 英 语 中 还 有 很 多 歧义 
结构 ， 下 面 ， 我 们 做 进一步 说 明 。 


4. 歧义 结构 “Somebodyis + V-ing + N” 


V-ing 可 能 修饰 N， 形 成 NP，V-ing 也 可 能 与 前 面 的 js 结合 ， 形 成 
VP, Ar^ Fu X.» ur P Br: 
Somebody is — V-ing N Somebody is V-ing N 


NP BE NP NP VP NP 
例如 : 


1) They are receiving women as guest. 
They are amusing women. 
> They are entertaining women. (entertaining 有 “接待 > 和 “* 快 
乐 ”等 不 同 含义 ) 
2) They are flying the planes. 
They are the flying planes. 
^ They are flying planes. 
3) They are roses which are growing. 
They are cultivating roses. 


一 They are growing roses. 


4) They are having apples. 
They are apples for eating. 
一 They are eating apples. 


5. 歧义 结构 “somebody has + V-ed + 
N” 


V-ed 可 能 修饰 N， 形 成 NP，V-ed 也 可 能 与 前 面 的 has 结 合 ， 形 成 
VP， 从 而 产生 卜 义 ， 如 下 所 示 : 


Somebody has  V-ed N Somebody has V-ed N 
NP HAVE NP NP VP NP 


例如 ， 


1) He has already discarded boots. 
He has a pair of discarded boots. 
^ He has discarded boots. 

2) They have used cars as a transportation tool. 
They have a few used cars. 


^ They have used cars. 


6. 动词 不 定式 造成 的 旷 义 


动词 不 定式 可 能 做 它 前 面 的 名 词 的 修饰 语 ， 也 可 能 做 中 心动 词 的 
WE, AU BOX ° 


例如 ， 


1) He wants an assistant who can finish the experiment. 
To finish the experiment, he wants an assistant. 
^ He wants an assistant to finish the experiment. 


2) The students will discuss their plan about a dance party that they 
are to hold. 


In order to hold a dance party, the students will discuss their plan. 


^ The students will discuss their plan to hold a dance party. 


7. 歧义 结构 “Something is not to do” 


Not 可 能 与 它 前 面 的 is 相 结合 ， 形 成 否定 形式 is not，not 也 可 能 与 
它 后 面 的 to do 结合 ， 形 成 not to do， 从 而 产生 歧义 。 如 下 所 示 : 


Something is notto do Something is notto do 


例如 ， 


His object isn't to eat. 〈 他 的 目的 不 是 吃 。) 
Not to eat is his object. 〈 他 的 目的 是 不 吃 。) 
一 His object is not to eat. 


8. 歧义 结构 “something is ready to do” 


这 种 结构 中 的 is ready 可 能 表示 主动 态 ， 也 可 能 表示 被 动态 ， 从 而 
形成 歧义 。 


例如 ， 


1) The chicken is ready to eat some food. 
The chicken is ready to be eaten. 
一 The chicken is ready to eat. 

2) The horse itself is ready to ride on the track (on the way). 
The horse is ready for someone to ride. 


一 The horse is ready to ride. 


9.“V-ing” 引 起 的 歧义 


“V-ing" 可 能 具有 主动 和 被 动 两 种 含义 ， 从 而 引起 歧义 。 
例如 ， 


1) John likes to question scientist. 
John likes scientist who often asks questions. 
^ John likes questioning scientist. 

2) The way of the hunter shot was terrible. 
That the hunter was shot was terrible. 


^ The shooting of the hunter was terrible. 


10. XXE TRES | ERI C 


Her 可 能 做 双 宾 语 中 的 间接 宾语 的 修饰 语 ， 也 可 能 单独 做 间接 宾 
iR, Mus DE X. ° 


例如 ， 


1) Mary gave picture to her baby. 
Mary gave baby picture to her. 
^ Mary gave her baby picture. 
2) Mary taught manners to her child. 
Mary taught child manners to her. 


^ Mary taught her child manners. 


11. 歧 义 结构 “V + her + 动 名 兼 类 词 ” 


当 动 名 兼 类 词 解释 为 名 词 时 ，her 是 这 个 名 词 的 修饰 语 ， 当 动 名 兼 
类 词 解释 为 动词 时 ，her 十 这 个 动词 的 宾语 ， 从 而 形成 歧义 。 


例如 ， 


1) Iheard that she cried to help. 
I heard her loud cry for help. 
> I heard her cry for help. 
2) I saw the wonder she had done. 
I saw her feel greatly surprised. 
> Isaw her wonder. (wonder 有 “奇迹 ”和 “惊奇 "等 不 同 含义 ) 


3) Isawher remain awake. 


I saw the watch belonged to her. 


> I saw her watch. (watch 有 “观察 ”和 “手表 ”等 不 同 含义 ) 
4) Isaw her lower her head. 


I saw the duck which belonged to her. 
> I saw her duck. 《duck 有 “低头 ”和 “鸭子 ”等 不 同 含义 ) 


12. 歧义 结构 “V + somebody + V-ed” 


V-ed 可 能 做 somebody 的 修饰 语 ， 也 可 能 做 从 句 中 的 谓语 ， 从 而 产 
AE IB X, o 


例如 ， 


She found that a boy was hidden behind the door. 
She found a boy who was hidden behind the door. 
^ She found a boy hidden behind the door. 


13. It V. 25 $5 “V + somebody + who 
clause" 


“who clause” 可 能 做 somebody 的 修饰 语 ， 也 可 能 做 动词 V 的 宾语 从 
句 ， 从 而 产生 歧义 。 
例如 ， 


1) Iasked the professor, who would give the lecture. 


I ask the professor. This professor would give the lecture. 
^ [asked the professor who would give the lecture. 

2) John asked the lady, who was sitting on the stairs. 
John asked the lady. She was sitting on the stairs. 


^ John asked the lady who was sitting on the stairs. 


14. Ilt X. 48 FJ “V + somebody + when 
clause” 


“when clause” 可 能 做 动词 V 的 时 间 状 语 ， 也 可 能 做 动词 V 的 宾语 从 
^J, Aur A X. o 


例如 ， 


Tell me at what time you are free. 
When you are free, tell me. 


^ Tell me when you are free. 


15. Ex X 2$ fA “V + somebody + if 
clause" 


“if clause” 可 能 做 动词 V 的 条 件 从 句 ， 也 可 能 做 动词 V 的 宾语 从 
人 句 ， 从 而 产生 歧义 。 


例如 ， 


1) Tell me whether you have time or not. 
If you have time, tell me. 


^ Tell me if you have time. 


16. 歧义 结构 “V + if clause” 


这 种 此 义 结构 与 前 面 的 此 义 结 构 类 似 。*“if clause” 可 能 做 动词 V 的 
条 件 从 句 ， 也 可 能 做 动词 V 的 宾语 从 多， 从 而 产生 歧义 。 


例如 ， 


Let me know whether you're coming or not. 
If you're coming, let me know. 


> Let me know if you're coming. 


17. TERIEN 


由 修饰 语 产 生 的 歧义 有 各 种 不 同 的 情况 ， 从 下 面 的 例句 中 ， 读 者 
不 难看 出 它们 的 莽 别 来 。 


1) Itisa pretty skirt for a little girl. 
It is a fairly (=pretty) little skirt for a girl. 
It is an attractive (=pretty) little skirt for a girl. 


It is a skirt for a fairly little girl. 

It is a skirt for an attractive little girl. 

> It is a pretty little girl's skirt. 
2) Do you happen to know the gentleman next to the lady who is 
reading a book? 

Do you happen to know the gentleman who is reading a book, next 
to the lady? 

^ Do you happen to know the gentleman next to the lady reading 
a book? 
3) I recommended John to Tom. The former was approachable. 

I recommended John to Tom. The latter was approachable. 

^ [recommended John to Tom who was approachable. 
4) Ilike the books on the shelves. I bought the shelves yesterday. 

I like the books on the shelves. I bought the books yesterday. 

^ [like the books on the shelves I bought yesterday. 
5) There is a theatre located near the business district. The theatre is 
crowded every night. 

There is a theatre near the business district. The business district is 
crowded every night. 

^ There is a theatre near the business district which is crowded 
every night. 
6) The secretary granted my request namely that I might see the 
president. 

The secretary granted my request so that I might see the president. 


^ The secretary granted my request that I might see the president. 


18. 状语 的 歧义 


由 状语 产生 的 收 义 有 各 种 不 同 的 情况 ， 从 下 面 的 例句 中 ， 读 者 不 
难看 出 它们 的 差别 来 。 


1) When you are free, tell him. 
Tell him at what time you are free. 
^ Tell him when you are free. 
2) If you have time, tell me. 
Tell me whether you have time or not. 
^ Tell me if you have time. 
3) She knew that, before I met you, you had begun to study NLP. 
Before I met you, she knew that you had begun to study NLP. 
^ She knew that you had begun to study NLP before I met you. 


为 了 解决 英语 谢 析 中 的 同形 歧义 问题 ， 美 国 计 算 语 言 学 家 马尔 库 
斯 提出 了 确定 性 剖析 算法 (determinism) ， 这 种 算法 主张 ， 在 句子 的 
剖析 过 程 中 ， 尽 量 不 要 在 局 部 的 歧义 问题 上 纠缠 ， 不 要 回溯 ， 不 要 改 
变 初 袁 ， 一 定 要 不 屈 不 挠 地 去 找寻 唯一 正确 的 结构 描述 。 学 者 们 还 提 
t T [Bi (lookahead) 的 超前 分 析 策 略 、 启 发 式 分 析 策 略 
(heuristics ) 、 移 进 一 规约 剖析 算法 ( shiftreduce Parsing 
algorithm) 、 线 图 剖析 法 (chart parser) 等 。 可 见 ， 同 形 歧义 确实 是 
目 然 语言 处 理 中 的 一 个 至 天 重要 的 问题 。 


前 面 我 们 分 析 来 瑞 语 中 的 结构 歧义 ， 现 在 我 们 讨论 汉语 的 结构 收 
义 问题 。 


早 在 1959 年 ， 赵 元 任 就 写 了 《汉语 中 的 歧义 问题 》 (Ambiguity in 
Chinese ， 译 文 载 《 语 言 学 论 从 》， 第 十 五 辑 ， 商 务 印 书馆 ，1988 
年 ) ， 这 是 我 们 见 到 的 最 早 的 一 篇 关于 汉语 上 下 义 问 题 的 理论 探讨 的 专 
论 。 此 后 ， 朱 德 操 于 1980 年 写 过 《汉语 句法 里 的 长 义 现象 》 (《 中 国 
语文 》，1980 年 ， 第 2 期 ) ， 从 句法 的 角度 研究 汉语 的 歧义 。 同 形 歧 义 
一 直 是 我 国语 言 学 前 埋头 心 的 问题 。 


汉语 中 的 词汇 歧义 主要 体现 在 多 义 词 和 兼 类 词 上 ， 多 义 词 是 具有 
一 个 以 上 意义 的 词 ， 兼 类 词 是 具有 一 个 以 上 词类 类 别 的 词 。 关 于 这 样 
的 词汇 蚊 义 ， 本 书 在 第 二 章 第 四 节 中 讲 文 本 目 动 标注 时 已 经 讨论 过 。 
这 里 ， 我 们 主要 讨论 一 下 汉语 中 的 结构 此 义 问题 。 


前 面 我 们 列举 了 18 种 英语 中 的 结构 歧义 现象 ， 其 中 最 重要 的 结构 
卜 义 有 3 种 。 附 夏收 义 、 并 列 歧义 和 名 词 短 语 括 号 上 义 。 


英语 中 第 一 种 常见 的 结构 收 义 ， 即 介词 词组 PP 既 作 状语 义 作 定语 
的 那 种 附着 卜 义 ， 汉 语 中 并 不 多 见 。 因 为 汉语 的 PP 作 定 语 时 ， 一 般 置 
于 名 词 词组 之 前 ， 剃 加“ 的"， 不 易 与 作 状 语 的 PP 相 混 。 但 是 ， 在 汉语 
的 介词 词组 中 ， 由 于 介词 管辖 范围 的 不 同 ， 却 容易 引起 歧义 。 例 如 ， 


关于 ( (教师 的 ) 小 说 ) 
(关于 (教师 的 )) 小 说 


在 第 一 个 短语 中 ， 介 词 “ 关 于 ”的 管辖 范围 是 “教师 的 小 说 ”( 试 比 
较 : “关于 动物 的 尾巴 *) ， 在 第 二 个 短语 中 ， 介 词 的 管辖 范围 只 是 “ 教 
师 ”( 试 比较 :“ 关 于 动物 的 书 ”) ， 因 而 产生 歧义 。 


英语 中 第 二 种 常见 的 结构 歧义 ， 即 由 于 连词 and 的 管辖 范围 不 同 而 
产生 的 并 列 结构 歧义 ， 在 汉语 中 也 存在 。 在 汉语 中 ,“ 的 ” 子 跟 连 


词 < 和 "用 在 一 起 ， 最 容易 产生 管辖 范围 的 问题 。 例 如 ， 


把 ( (重要 的 书籍 和 (Pita) ) 
把 (重要 的 〈 书 籍 和 手稿 ) ) "GET 


XUI: 


( (车 票 ) 和 (零用 的 钱 ) ) 都 在 这 里 了 
( (车 票 和 零用 ) 的 钱 ) 都 在 这 里 了 


英语 中 第 三 种 常见 的 结构 歧义 ， 即 由 两 个 或 两 个 以 上 的 名 词组 成 
名 词 词组 而 产生 的 歧义 ， 在 汉语 中 也 很 普遍 。 


由 名 词 N1 和 名 词 N2 组 合 而 成 的 词组 ， 其 结构 关系 各 有 不 同 ， 形 成 
结构 歧义 。 


例如 ， 


(N1) + (N2) 
(女子 ) (理发 店 ) 


可 以 指 专门 给 女子 理发 的 理发 店 ， 也 可 以 指 理发 师 全 都 是 女性 的 理发 
JE 


由 三 个 名 词组 合 而 成 的 词组 ， 由 于 结构 层次 的 不 同 ， 也 会 产生 结 
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例如 ， 


(N1+ (N2+N3) ) ( (N1 + N2) + N3) 


(儿童 (文学 作品 )) ( 《儿童 文学 ) 作品 ) 


(HE) (Ritts) ) ( (中 国 历史 ) 研究 会 ) 
(北京 (大 学 毕业 生 ) ) ( (北京 大 学 ) 毕业 生 ) 
(台湾 (语言 研究 会 ) ) ( (台湾 语言 ， 人 研究 会 ) 


由 形容 词 ADJ、 名 词 N1、 名 词 N2 组 合 而 成 的 词组 ， 结 构 层 次 不 
同 ， 也 会 产生 结构 歧义 。 例 如 ， 


(ADJ+ (N1+N2) ) ( (ADJ * NI) + N2) 
(小 (学 生字 典 ) ) ( (小 学 生 ) FH) 
(新 (文学 概论 ) ) ( (新 文学 ) 概论 ) 
(新 (职工 宿舍 ) ) ( (新 职工 ) 宿舍 ) 


事实 上 ， 汉 语 中 常见 的 同形 歧义 结构 还 有 许多 ， 和 情况 似乎 比 英 语 
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为 了 从 理论 上 概括 汉语 中 同形 疏 义 结构 的 类 型 ， 朱 德 昭 在 《汉语 
句法 中 的 歧义 现象 》 一 文中 ， 提 出 了 “ 攻 义 格式 "这 个 概念 。 他 认为 ， 
句子 的 歧义 “是 代表 了 这 些 句子 的 抽象 的 ' 句 式 ' 所 固有 的 ”由 ， 因 此 ， 
他 主张 用 “ 牙 义 格式 ”来 概括 汉语 中 的 同形 上 义 结构 。 


朱德 牛 的 这 种 见解 是 很 有 价值 的 ， 因 为 语言 中 的 任何 一 个 有 结构 
卜 义 的 形式 ， 都 不 是 孤零零 地 存在 的 ， 它 往往 代表 具有 某 种 格式 的 许 
许多 多 形式 。 抓 住 歧义 格式 是 研究 疏 义 的 必要 途径 。 


但 是 ， 朱 德 牛 的 天 于 “ 层 义 格式 ”的 见解 ， 还 有 不 完全 之 处 。 我 们 
在 目 然 语言 处 理 的 研究 中 发 现 ， 靶 义 格式 所 反映 的 类 别 的 歧义 ， 在 具 
体 的 语言 中 有 时 存在 ， 有 时 并 不 存在 。 当 我 们 把 具体 的 单词 代 真 到 层 
义 格 式 中 的 范畴 符号 〈 也 就 是 类 别 符号 ) 中 ， 而 使 层 义 格式 变 为 具体 
的 句子 和 词组 的 时 候 ， 有 的 句子 或 词组 中 仍然 可 以 保持 歧义 格式 原 有 
的 歧义 ， 而 有 的 句子 或 词组 中 ， 歧 义 格式 原 有 的 歧义 却 消 失 了 。 


例如 ， 英 语 中 最 常见 的 第 一 种 结构 歧义 有 如 下 的 歧义 格式 .: 
VP + NP1 + Prep + NP2 


当 我 们 把 VP 代 真 为 aaw， 把 NP2 代 真 为 a boy， 把 Prep 代 真 为 with,， 
把 NP1 代 真 为 a telescope 上 时 ， 得 到 的 “saw a boy with a telescope” = £j Il 
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可 是 ， 如 果 我 们 把 VP, NP1, Prep, NP2 等 范畴 符号 代 真 为 别 的 单词 
或 词组 的 时 候 ， 这 个 歧义 格式 中 的 歧义 却 消 失 了 。 请 看 如 下 的 例子 : 


She sent the ticket to New York. (1) 
(她 把 票 寄 到 纽约 。) 
She lost the ticket to New York. (2) 


(她 把 到 纽约 的 票 丢失 了 。) 
He cooks dinner for the children. (3) 
(他 为 孩子 们 做 饭 。) 


The company sells toys for 
children. 


(4) 


Æ (1) 中 ， 动 词 sent 表 示 传 送 ， 具 有 趋向 性 ， 介 词 词组 to New 
York 作 它 的 状语 ， 不 作 名 词 词组 the ticket 的 定语 ， 歧 义 格式 中 的 歧义 
消失 了 ; Æ (2) 中 ， 动 词 lost 表 示 形 失 ， 不 具有 趋向 性 ， 介 词 词组 to 
New York 作 名 词 词组 the ticket 的 定语 ， 不 作 动 词 lost 的 状语 ， 履 义 格式 
中 的 歧义 也 消失 了 ; 同样 地 ， 在 (3) 中， 介词 词组 for the children 作 
动词 cooks 的 状语 ， 表 示 目 的 ， 而 不 作 名 词 dinner 的 定语 ， 收 义 格式 中 
的 歧义 也 消失 了 ; 在 (4) 中， 介词 词组 for the children 作 名 词 toys 的 定 
语 ， 而 不 作 动词 sells 的 状语 ， 履 义 格式 中 的 蚊 义 也 消失 了 。 


这 说 明 ， 在 研究 同形 攻 义 问题 时 ， 我 们 归纳 概括 出 来 的 歧义 格式 
中 所 反映 的 卜 义 ， 并 不 是 现实 的 卜 义 ， 而 是 一 种 潜在 的 卜 义 ， 当 用 具 
体 的 单词 去 代 真 歧义 格式 中 的 范畴 符号 时 ， 在 所 形成 的 具体 的 句子 或 
词组 中 ， 这 种 潜在 收 义 有 可 能 继续 保持 ， 也 有 可 能 不 再 继续 保持 而 消 
失 的 无 影 无 际 了 。 在 歧义 格式 的 研究 中 ， 这 是 一 个 值得 特别 注意 的 、 
市 有 普遍 性 的 语言 现象 。 


在 汉语 的 歧义 格式 中 ， 也 同样 存在 着 淤 在 歧义 的 问题 。 例 
4], “VP + 的 + 是 + NP" 是 汉语 中 的 一 个 琉 义 格式 ， 其 中 的 VP 是 一 个 双 
Nia], “VP + 的 ” 作 主 语 ,“ 是 + NP” 作 谓语 ， 整 个 格式 是 一 个 主 谓 结 
构 ， 由 于 主语 部 分 的 “VP + 的 ?可 以 是 施 事 ， 又 可 以 是 受 事 ， 因 而 产生 
了 歧义 。 例 如 ， 如 果 我 们 把 VP 代 真 为 “反对 ”， 把 NP 代 真 为 “少数 人 ”， 
得 到 “反对 的 是 少数 人 ”这 一 句子 ， 可 以 理解 为 “ 提 反 对 意见 的 是 少数 
人 ”， 这 时 ， 主 语 “ 反 对 的 ”是 施 事 ， 表 示 反 对 者 ， 也 可 以 理解 为 “所 反 
对 的 是 少数 人 ”， 这 时 ， 主 语 “ 反 对 的 ”是 受 事 ， 表 示 被 反对 者 。 


SC SURE VP + 的 + 是 + NP” 代 真 为 如 下 的 句子 时 ， 这 种 层 义 都 
一 直 保 持 着 : 


“看 的 是 病人 ”可 以 理解 为 “正在 观看 某 种 情况 的 是 病人 ”(“ 看 
的 ”是 施 事 ) ， 也 可 以 理解 为 “被 看 的 是 病人 ”(“ 看 的 ”是 受 事 ) ; 


“关心 的 是 她 母亲 ”可 以 理解 为 "她 母亲 关心 某 人 某 事 ”(〈“ 关 心 ” 是 
施 事 ) ， 也 可 以 理解 为 “被 关心 的 人 是 她 母亲 ”(〈“ 关 心 " 是 受 事 ) ; 


“ 扮 淘 的 是 一 个 演员 ”可 以 理解 为 "一 个 演员 扮演 了 剧 中 有 某 个 非 演员 
的 角色 ”(“ 扮 演 的 "是 施 事 ) ， 也 可 以 理解 为 “被 扮演 成 一 个 演 


员 ”(“ 扮 演 的 ”是 受 事 ) ; 


“援助 的 是 中 国 ” 可 以 理解 为 “中 国 援 助 了 别 国 ” (“援助 的 ”是 施 
事 ) ， 也 可 以 理解 为 “ 别 国 援助 了 中 国 ”(“ 援 助 的 ”是 受 事 ) 


“相信 的 是 傻瓜 ”可 以 理解 为 “相信 某 种 情况 的 人 是 傻 斥 ”(“ 相 信 
的 ”是 施 事 ) ， 也 可 以 理解 为 “所 相信 的 人 是 傻瓜 ”〈“ 相 信 的 ?是 受 
=) 


(Ae, WR BCE RVP + 的 + 是 + NP” 代 真 为 “关心 的 是 分 
数 ” 时 ， 只 可 以 理解 为 “所 关心 的 事 是 分 数 ”, “关心 的 ”只 能 是 受 事 ， 而 
不 可 能 是 施 事 ， 因 为 “分 数 ?不 可 能 去 关心 什么 东西 ， 这 样 ， 层 义 格式 
中 的 湾 在 歧义 也 消失 了 。 


如 果 把 攻 义 格式 *VP + 的 + 是 + NP” 代 真 为 “反对 的 十 战争 ”时 ， 只 可 
以 理解 为 “被 反对 的 东西 是 战争 ”，“ 反 对 的 ”只 能 钙 受 事 ， 而 不 可 能 是 
施 事 ， 因 为 “战争 ”作为 无 生命 的 事物 ， 不 会 去 反对 什么 东西 ， 这 样 ， 
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前 面 说 过 ， 汉 语 中 “N1 + N2 + N3” 是 一 种 歧义 格式 ， 因 为 它 可 以 
理解 为 ( (N1+N2) +N3) ， 也 可 以 理解 为 (N1+ (N2+N3) ) , 
层次 结构 各 不 相同 ， 因 而 产生 歧义 。 如 "人 台湾 语言 研究 会 >， 可 以 理解 
为 〈 (台湾 语言 研究 会 ， 研 究 会 只 研究 台湾 的 语言 ， 如 台湾 的 图 
南 话 、 台 湾 的 高 山 语 等 ， 也 可 以 理解 为 (台湾 (语言 研究 会 )) ， 研 
究 会 进行 各 种 各 样 的 语言 研究 ， 不 限于 研究 台湾 的 语言 ， 这 时 ， 潜 在 
歧义 在 具体 的 这 个 词组 中 仍然 保持 着 ， 可 是 如 果 我 们 把 “N1 + N2 + 
N3” 代 真 为 “地 名 语源 词典 ?， 其 层次 结构 只 能 分 析 为 ( (地 名 语源 ) 
词典 ) ， 这 时 ， 靶 义 格 式 中 的 潜在 歧义 就 消失 了 。 


前 面 还 说 过 ， 汉 语 的 “ADJ+ N1 + N2” 也 是 一 种 歧义 格式 ， 因 为 它 
可 以 理解 为 ( (ADJ+N1) +N2) ， 也 可 以 理解 为 (ADJ+ (N1 + 
N2) ) ， 其 层次 结构 各 不 相同 ， 因 而 产生 歧义 。 如 “小 学 生字 典 *»， 可 
以 理解 为 ( (小 学 生 ) FA) ， 表 示 这 种 字典 是 专 供 小 学 生 用 的 ， 不 
是 供 中 学 生 、 大 学 生 或 其 他 人 用 的 ， 也 可 以 理解 为 (小 (学 生字 
BR) ) ， 表 示 这 是 一 种 小 型 的 学 生字 典 ， 可 以 供 所 有 的 学 生 使 用 ， 这 
时 ， 这 种 歧义 格式 的 潜在 收 义 在 具体 的 这 个 词组 中 仍然 保持 着 ， 可 
是 ， 当 我 们 把 “ADJ + N1 + N2” 这 个 代 真 为 “新 英汉 词典 * 时 ， 其 层次 结 
构 只 能 分 析 为 (新 (英汉 词典 ) ) ， 这 时 ， 上 收 义 格式 中 的 潜在 歧义 就 
消失 了 。 


由 此 可 见 ， 当 我 们 在 自然 语言 的 歧义 研究 中 ， 把 具体 的 歧义 词组 
或 歧义 句子 概括 为 某 种 抽象 的 歧义 格式 的 时 候 ， 这 种 抽象 的 歧义 格式 
中 所 包含 的 歧义 只 是 一 种 潜在 的 歧义 。 这 种 潜在 的 歧义 在 该 歧义 格式 
被 代 真 为 其 他 的 词组 或 句子 时 ， 有 可 能 继续 保持 ， 也 有 可 能 消失 。 这 
是 自然 语言 层 义 格式 研究 区 别 于 自然 语言 的 一 般 句 法 研究 的 一 个 重要 
特点 ， 我 们 在 自然 语言 的 歧义 格式 的 研究 中 ， 不 可 不 注意 这 一 个 重要 


特点 。 我 们 提出 的 “潜在 卜 义 ”改进 了 朱德 女 教 授 关 于 “歧义 格式 ”的 理 
论 ， 把 “ 旷 义 格式 ”的 理论 更 加 深化 了 。 


第 二 六 ”科技 术语 中 的 潜在 监 义 


本 书 作 者 于 1986 年 至 1988 年 在 联邦 德国 夫 环 禾 费 研 究 院 (FhG) 
源 信 息 技 术 与 通讯 系统 研究 所 担任 客座 研究 员 期 间 ， 为 了 解决 自然 语 
言 蚊 义 研究 中 的 这 一 重要 问题 ， 曾 经 以 汉语 科技 术语 作为 研究 丸 材 ， 
PROT T DCE BBS ZR TB PAY PS EW X qn, BA Pe EB SL 
ve” (Potential Ambiguity Theory， 简 称 PA 论 ) ， 并 且 在 VAX 11/750 计 
算 机 上 ， 分 析 了 汉语 术语 数据 库 GLOTC 中 的 全 部 词组 型 术语 ， 证 明 
了 潜在 上 收 义 论 的 正确 性 。 


为 什么 当时 我 们 的 研究 要 以 汉语 科技 术语 为 研究 素材 ， 而 不 以 日 
常 语言 材料 为 研究 素材 呢 ? 


这 是 因为 汉语 科技 术语 只 有 一 小 部 分 是 单词 型 术语 ， 如 “程序 ， 算 
法 ， 流 程 * 等 ， 而 大 部 分 都 是 词组 型 术语 ， 词 组 型 术语 可 以 由 两 个 词 构 
成 ， 如 “程序 /设计 ”， 或 者 由 三 个 词 构 成 ， 如 “数字 /字符 / 子 集 *， 或 者 
由 四 个 词 构成 ， 如 “条 件 /控制 /转移 /指令 *， 或 者 由 五 个 词 构成 ， 如 * 平 
均 / 无 /故障 /工作 /时 间 ”， 或 者 由 六 个 词 构成 ， 如 “四 /分 /之 /一 /平方 /乘法 
名 ”， 对 于 这 些 词 组 型 术语 的 结构 进行 收 义 分 析 ， 可 以 扬 示 汉语 科技 术 
语 的 内 在 结构 规律 ， 从 而 为 科技 术语 的 规范 化 和 新 术语 的 命名 ， 在 语 
言 学 上 提供 理论 根据 ， 使 汉语 科技 术语 的 研究 工作 与 汉语 语法 和 语义 
的 研究 工作 更 加 紧密 地 结合 起 来 ， 这 是 一 个 方面 的 原因 。 


男 外 ， 还 有 男 一 个 方面 的 原因 ， 束 是 我 们 试图 以 汉语 词组 型 科技 
术语 的 歧义 研究 ， 作 为 汉语 句子 歧义 研究 的 突破 口 。 


朱德 钻 教 授 生 前 在 讨论 汉语 的 特点 的 时 候 指出 : “如 采 我 们 把 各 类 
词组 的 结构 都 足够 详细 地 搬 述 清楚 了 ， 那 末 句 子 的 结构 实际 上 也 束 描 
述 清 楚 了 。 因 为 和 句子 不 过 是 独立 的 词组 而 已 。” 可 见 ， 要 解决 汉语 句子 
的 目 动 句 法 分 析 这 个 大 问题 ， 可 以 首先 从 汉语 句子 的 目 动 句法 分 析 入 
手 ， 而 要 解决 汉语 句子 的 歧义 问题 ， 首 和 完 也 要 从 汉语 词组 的 歧义 分 析 
入 手 。 汉 语 的 科技 术语 绝 大 部 分 是 词组 型 术语 ， 这 些 词组 型 的 科技 术 
语 ， 其 结构 一 般 比 较 严 谨 ， 其 合 义 一 般 比 较 单 纯 ， 它 们 在 一 定 程度 上 
反映 了 汉语 词组 结构 的 规律 ， 如 采 我 们 把 汉语 词组 型 科技 术语 的 结构 
描述 清楚 了 ， 也 束 有 可 能 把 汉语 的 词组 结构 描述 清楚 了 ， 并 进一步 把 
汉语 句子 的 的 结构 描述 清楚 了 ， 而 如 采 我 们 把 汉语 词组 型 科技 术语 的 
歧义 问题 搬 述 清楚 了 ， 也 束 有 可 能 把 汉语 词组 的 皮 义 问题 描述 清楚 
了 ， 并 进一步 把 汉语 句子 的 卜 义 问题 描述 清楚 了 。 


正 是 基于 这 样 的 信念 ， 我 们 从 汉语 词组 型 科技 术语 的 歧义 研究 
中 ， 找 到 了 解决 汉语 句子 歧义 问题 的 钥匙 。 我 们 认为 ， 这 是 汉语 自然 
语言 计算 机 处 理 的 一 项 基础 性 工作 。 在 实质 上 ， 这 也 是 一 种 “ 受 限 语 
法 ” (restricted grammar) 的 研究 ， 它 可 以 为 汉语 的 计算 语言 学 提供 一 
个 简明 的 歧义 分 析 模 型 。 


根据 短语 结构 语法 ， 我 们 用 树 形 图 来 表示 汉语 科技 术语 的 结构 。 
树 形 图 的 几何 形状 表示 术语 结构 的 几何 值 ， 它 反映 了 组 成 术语 的 各 个 
成 分 之 间 的 线性 的 顺序 天 系 以 及 空间 的 层次 天 系 ; 树 形 图 上 各 个 结 点 
的 标记 表示 术语 结构 的 代数 值 。 由 于 术语 的 结构 比 句 子 简单 ， 我 们 采 
用 二 叉 单 标记 树 形 图 (binary mono-labelled tree graph) 来 表示 术语 的 


结构 ， 并 在 此 基础 上 ， 建 立 描述 汉语 词组 型 术语 同形 疏 义 的 理论 和 方 
法 。 


PMAX” (binary) ， 就 是 说 ， 我 们 对 于 任何 的 术语 结构 ， 在 同 
一 个 层次 上 ， 都 采用 二 分 的 方法 来 进行 切 分 ， 这 样 ， 术 语 的 几何 值 ， 
就 是 一 个 多 层次 的 二 又 树 ; 所 谓 “ 单 标记 ” (mono-labelled) ， 就 是 
说 ， 我 们 在 树 形 图 的 每 个 结 点 上 ， 只 给 一 个 标记 ， 由 于 在 术语 结构 分 
析 中 ,，“ 词 *? 和 “词组 类 型 * 是 最 重要 的 ， 因 此 ， 我 们 对 于 树 形 图 中 的 非 
终极 结 点 (non-terminal node) ， 均 标 以 “词组 类 型 ”为 其 代数 值 ， 对 于 
树 形 图 中 的 前 终极 结 点 (pre-terminal node) ， 均 标 以 “词类 ”为 其 代数 
值 。 所 谓 “ 前 终极 结 点 *， 束 是 树 形 图 中 以 终极 结 点 为 其 直接 后 诊 的 那 
些 结 点 ， 在 前 终极 结 点 的 直接 后 裔 上 的 标记 ， 丈 是 构成 术语 的 各 个 有 具 
体 的 单词 。 


当然 ， 这 种 二 又 单 标记 树 形 岁 并 不 能 最 完善 地 描述 术语 的 结构 ， 
也 不 能 最 充分 地 反映 术语 的 全 部 代数 的 和 几何 的 性 质 。 壁 如 ， 树 形 图 
中 各 结 点 之 间 的 逻辑 语义 关系 〈 如 施 事 、 受 事 、 方 向 、 目 的 、 工 具 
等 ) 、 句 法 功能 关系 〈 如 主语 、 谓 语 、 宾 语 、 补 语 等 ) 以 及 据 以 辨别 
该 术语 意义 的 有 天 育 景 知 识 ， 也 是 十 分 重要 的 。 但 是 ， 为 了 表述 上 的 
方便 ， 我 们 只 考虑 术语 的 词类 和 词组 类 型 信息 ， 并 在 此 基础 上 ， 进 一 
步 探 讨 树 形 图 中 各 个 结 点 之 间 的 句法 功能 关系 和 逻辑 语义 天 系 。 


一 般 地 说 ， 术 语 是 一 个 词组 ， 因 而 可 表示 为 一 个 二 又 的 单 标记 树 
形 图 。 例 如 “字母 数字 字符 ， 


这 个 术语 ， 由 “字母 数字 ”这 个 名 词 词组 和 “字符 ”这 个 名 词组 合 而 
成 ， 其 结构 可 表示 如 下 : 


图 5.4 中 ，NP 表 示 名 词 词组 ， 它 处 于 非 终极 结 点 上 ， 是 词组 类 型 标 
记 ，N 表 示 名 词 ， 它 处 于 前 终极 结 点 上 ， 是 词类 标记 。 


字母 数字 


图 5.40 用 二 又 单 标记 树 形 图 表示 术语 结构 


这 种 二 又 单 标 记 树 形 图 也 可 以 表示 为 如 下 的 括号 式 : 
NP(NP(N|N)IN) 


AR OUR OE AA Ma, SERA. EM Mic AREA 
一 个 ， 这 时 ， 这 个 术语 就 是 一 个 单词 了 。 因 此 ， 单 词 型 术语 可 以 看 成 
是 词组 型 术语 的 一 种 特殊 情况 。 一 般 地 说 ， 术 语 是 一 个 可 表示 为 二 又 
单 标记 树 形 图 的 词组 ， 当 这 个 二 又 单 标记 树 形 图 虹 化 为 一 个 结 点 时 ， 
术语 殉 是 一 个 单词 。 


图 5.5 RUE 


二 义 单 标记 树 形 图 的 几何 形状 ， 并 不 能 全 面 地 表示 术语 的 结构 。 
为 具有 相同 几何 形状 的 树 形 图 ， 


如 有 果 其 结 点 上 的 代数 标记 不 同 ， 


忠 会 成 为 结构 不 同 的 术语 。 例 如 , “再 局 动 点 ”这 个 术语 的 结构 如 
下 : 


其 中 ，VP 表 示 动 词 词组 ，AD 表 示 副 词 ，V 表 示 动 词 ， 其 括号 表示 
EUN: 


NP(VP(AD|V)|N) 


这 个 术语 的 几何 结构 与 “流程 图 符号 ”的 几何 结构 是 一 样 的 。 抽 象 
地 说 ， 这 两 个 术语 的 几何 结构 都 可 以 表示 为 : 


yt m 
LN 


l. 6 oon 


但 是 ， 在 结 点 1 上 ， 一 个 术语 的 标记 为 NP， 一 个 术语 的 标记 为 
VP; 在 结 点 1.1 上 ， 一 个 术语 的 标记 为 N， 另 一 个 术语 的 标记 为 AD; 
在 结 点 1.2 上 ， 一 个 术语 的 标记 为 N， 另 一 个 术语 的 标记 为 V。 相 应 结 
点 上 的 代数 值 不 完全 相同 ， 它 们 应 该 看 成 是 结构 不 同 的 术语 。 


这 两 个 几何 值 相同 而 代数 值 不 同 的 术语 ， 我 们 可 以 把 它们 表示 在 
如 下 的 有 限 状 态 转移 网 络 中 : 


图 5.7 有 限 状 态 转移 网 络 


在 这 个 有 限 状 态 转移 网 络 中 ， 圆 圈 表 示 状 态 ， 记 为 qu ，q1 Q, 
d. q4: ds. dg. de ? EH, qo 表示 初始 状态 ，qf 表示 最 后 状态 ， 
箭头 表示 状态 的 转移 方向 。 


当 对 表示 词组 结构 的 二 叉 单 标记 树 形 图 的 各 个 结 点 目 上 而 下 、 从 
左 而 右 进行 忆 历 时 ， 在 树 形 独 中 从 一 个 结 点 转移 到 另 一 个 结 点 ， 在 状 
仿 转 移 网 络 图 中 也 束 沿 着 稍 尖 所 指 的 方向 从 一 个 状态 转移 到 男 一 个 状 
仿 。 转 移 时 树 形 图 中 各 个 结 点 的 标记 ， 束 标 在 状态 转移 网 络 图 中 相应 
箭头 的 上 方 。 为 了 说 明 状 态 转移 网 络 图 的 箭头 与 树 形 图 中 的 结 点 之 间 
的 对 应 关系 ， 我 们 在 状态 转移 网 络 图 中 ， 还 用 虚线 把 不 同 的 状态 隔 
开 ， 形 成 看 干 个 虚线 区 间 ， 每 个 区 间 对 应 于 树 形 鲜 上 的 一 个 结 点 。 如 
果树 形 图 的 各 个 结 点 饥 历 完毕 ， 状 态 转 移 网 络 图 整 进 入 最 后 状态 qf 。 
这 样 ， 束 可 以 在 状态 转移 网 络 图 与 树 形 图 之 间 建 立 起 对 应 关系 来 。 由 
于 具有 相同 几何 结构 的 树 形 图 ， 其 结 点 上 的 代数 值 标记 可 能 不 尽 相 


同 ， 所 以 ， 在 有 限 状 态 转 移 网 络 图 中 ， 当 状态 在 同一 虚线 区 间 内 转移 
时 ， 从 同一 个 状态 到 不 同 的 几 个 状态 ， 可 以 分 别 引 出 不 同 的 箭头 ， 而 
从 不 同 的 几 个 状态 到 男 一 个 状态 ， 也 可 以 引出 不 同 的 几 个 第 头 指 疝 这 
个 状态 。 由 于 箭头 上 可 以 标 以 不 同 的 代数 标记 ， 所 以 ， 这 样 的 有 限 状 
态 网 络 图 束 可 以 表示 知 干 个 具有 相同 几何 结构 而 代数 值 标记 不 尽 相同 
的 树 形 图 ， 对 树 形 图 进行 分 类 处 理 。 


例如 ， 上 述 的 有 限 状态 转移 网 络 图 可 以 用 来 描述 NP (NP 
(NIN) IN) 和 NP (VP (ADIV) IN) 这 两 个 树 形 图 。 在 标 以 0 的 虚线 
区 间 内 ， 由 于 树 形 图 的 结 点 0 上 ， 两 个 树 形 图 的 标记 均 为 NP， 所 以 ， 
由 状态 qo 转移 到 qt ， 箭 头 上 的 标记 均 为 NP; 在 标 以 1 的 虚线 区 间 内 ， 
由 于 树 形 图 结 点 1 上 的 标记 不 同 ， 分 别 为 NP 和 和 VP， 所以， 由 状态 qi 转 
移 到 gq, ， 箭 头 上 的 标记 为 NP， 由 状态 qi 转移 到 qs ， 箭 头 上 的 标记 为 
VP; 在 标 以 1.1 的 虚线 区 间 内 ， 由 于 树 形 图 结 点 1.1 上 的 标记 分 别 为 N 和 
AD，N 是 NP 的 左 直 接 后 裔 ，AD 是 VP 的 左 直 接 后 裔 ， 所 以 ， 由 状态 q， 
转移 到 gs ， 箭 头 上 的 标记 为 N， 由 状态 q4 转移 到 qs ， 箭 头 上 的 标记 为 
AD; 在 标 以 1.2 的 虚线 区 间 内 ， 由 于 树 形 图 结 点 1.2 上 的 标记 分 别 为 N 
和 V，N 是 NP 的 右 直 接 后 裔 ，V 是 VP 的 右 直 接 后 裔 ， 所 以 ， 由 状态 q3 
到 qe ， 箭 头 上 的 标记 为 N， 由 状态 qs 到 qe ， 箭 头 上 的 标记 为 V; 在 标 
以 2 的 虚线 区 间 内 ， 由 于 树 形 图 结 点 2 的 标记 均 为 N， 所 以 ， 只 有 一 个 
箭头 由 状态 q6 转移 到 gr ， 箭 头 上 的 标记 为 N。 这 时 ， 树 形 图 NP (NP 
(NIN) IN) 和 树 形 图 NP (VP (ADIV) IN) 均 已 遍历 完毕 ， 而 有 限 状 
态 转移 网 络 也 进入 了 最 后 状态 qf。 这样， 同一 个 有 限 状态 网 络 图 ， 就 
表示 了 几何 结构 相同 而 代数 结构 不 同 的 两 个 树 形 图 。 这 两 个 树 形 图 的 
儿 何 结构 相同 ， 故 为 一 个 大 类 ， 这 两 个 树 形 图 的 代数 结构 不 尽 相 同 ， 


故 它们 义 古 同一 个 大 类 中 的 不 同 小 类 。 可 见 ， 有 限 状 态 转移 网 络 图 可 
以 用 来 作为 术语 结构 分 类 的 一 种 描述 手段 。 


值得 注意 的 是 ， 箭 头 上 的 标记 各 有 不 同 。 它 们 基本 上 可 以 分 为 两 
类 : 一 类 是 词组 类 型 标记 ， 如 NP, VP 等 ， 它 们 只 能 标记 在 树 形 图 中 的 
非 终 极 结 点 上 ; 另 一 类 是 词类 标记 ， 如 N, AD, V 等 ， 它 们 只 能 标记 在 
树 形 图 中 的 前 终极 结 点 上 。 这 是 两 类 性 质 很 不 相同 的 标记 ， 有 必要 加 
以 区 别 。 为 此 ， 我 们 规定 : 在 有 限 状 态 网 络 图 中 ， 当 稍 涉 上 的 标记 是 
词组 类 型 时 ， 加 一 个 尖 插 号 ， 记 为 <NP>, <VP>, .….. 等 ， 当 箭头 上 的 标 
记 是 词类 时 ， 不 加 尖 括 号 ， 记 为 N, AD, V 等 。 在 状态 转移 网 络 图 中 ， 
从 状态 qo 开始 ， 顺 次 读 取 词类 标记 ， 略 去 词组 类 型 标记 ， 再 插入 相应 
的 词汇 单元 (它们 标 在 树 形 图 的 终极 结 点 上 ) ， 得 到 的 线性 符号 串 ， 


便 是 一 个 术语 。 


任何 术语 都 有 字面 含义 及 学 术 售 义 。 


语言 学 家 在 研究 术语 问题 时 ， 应 该 着 重 研 究 术 语 的 字面 含义 ， 而 
专业 科学 家 在 研究 术语 问题 时 ， 应 该 着 重 研 究 术 语 的 学 术 售 义 。 


词组 型 术语 的 字面 舍 义 是 由 构成 该 术语 的 各 个 单词 以 及 把 这 些 单 
词 结合 起 来 的 句法 规则 完全 地 决定 的 含义 。 而 术语 的 学 术 含 义 则 是 相 
应 学 科 中 科学 地 加 以 定义 的 含义 。 术 语 的 字面 含义 是 术语 的 学 术 含 义 
的 语言 基础 。 因 为 任何 一 个 专家 也 同时 是 一 个 普通 人 ， 所 以 术语 的 学 
术 含 义 不 可 能 脱离 术语 的 字面 含义 而 单独 存在 。 术 语 的 学 术 仿 义 ， 其 
内 容 应 该 比 术 语 的 字面 含义 更 丰富 ， 但 是 ， 术 语 的 学 术 含 义 不 能 与 术 
语 的 字面 舍 义 发 生 了 矛盾 ， 它 只 能 在 术语 的 字面 含义 的 基础 上 进一步 加 
以 科学 的 界 说 而 形成 。 


术语 的 字面 含义 是 与 专业 领域 无 关 的 ， 而 术语 的 学 术 含义 则 与 它 
所 适用 的 专业 领域 有 天 ， 随 着 专业 领域 的 不 同 而 不 同 。 


术语 的 字面 含义 又 是 独立 于 时 间 的 变化 之 外 的 ， 它 不 考虑 任何 的 
历时 变化 ， 而 术语 的 学 术 含义 则 会 随 着 学 术 的 发 展 而 不 断 地 丰富 其 内 
酒 。 


例如 , “决策 / 量 ” 这 个 术语 ， 其 字面 全 义 由 十 “ 决 全 ”与 “ 量 ” 这 两 个 
词 的 含义 以 及 “定语 + 中 心 语 ” 这 种 句法 结构 决定 的 ， 它 表示 “决策 ”方面 
的 量 的 大 小 ; 而 其 学 术 含 义 则 可 定义 为 :“ 从 有 限 个 互 不 相 容 事件 中 这 
取 某 个 给 定 事 件 所 需 的 决策 数 的 对 数 测度 ， 用 数学 记 数 法 表示 时 ， 这 
一 测度 为 : Ho = log n， 其 中 ，n 是 事件 的 数目 。” 


由 于 术语 的 字面 信义 是 术语 的 学 术 含 义 的 语言 基础 ， 对 于 术语 的 
字面 含义 的 研究 ， 必 然 会 有 助 于 对 其 学 术 含义 的 理解 ， 因 此 ， 语 言 学 
家 有 必要 注意 术语 的 字面 含义 的 研究 ， 并 把 这 种 研究 看 成 是 语言 学 研 
究 中 不 可 缺少 的 一 部 分 。 


我 们 在 这 里 所 研究 的 术语 的 侣 义 ， 主 要 是 术语 的 字面 含义 ， 这 种 
字面 舍 义 与 术语 的 结构 有 着 密切 的 天 系 。 为 了 全 面 地 揭示 术语 的 字面 
含义 与 其 结构 之 则 的 关系 ， 应 该 区 分 三 种 不 同 层面 的 结构 ， 术 语 的 词 
组 类 型 结构 、 术 语 的 句法 功能 结构 、 术 语 的 逻辑 语义 结构 。 


下 面 ， 我 们 束 来 分 析 这 三 种 结构 并 进而 对 “潜在 收 义 ”的 概念 作 进 
一 步 的 说 明 。 


汉语 的 词组 型 术语 可 以 用 一 个 二 又 的 单 标记 树 形 图 来 表示 ， 这 种 
树 形 岁 的 标记 ， 或 者 羡 词类 ， 或 者 是 词组 类 型 ， 每 个 结 点 上 只 能 容许 
一 个 标记 ， 而 在 树 形 图 的 每 个 层级 上 的 树枝 义 都 是 二 义 的 。 这 种 由 许 


多 层 二 又 的 树 术 构成 的 树 形 岁 ， 是 以 各 个 二 又 的 树 柜 作 为 其 结构 的 基 
本 单元 的 。 树 形 图 中 某 个 层级 的 树 校 上 的 两 个 相 邻 结 点 的 词类 或 词组 
类 型 标记 组 成 的 结构 ， 叫 做 术语 的 词组 类 型 结构 (Phrase Type 
Structure， 简 称 PT- 结 构 ) 


按 构成 PT- 结 构 的 标记 种 类 的 不 同 ， 可 把 PIT- 结构 分 为 四 种 : 


(1) 词类 标记 + 词类 标记 
PT-_ 结构 由 两 个 词类 标记 构成 。 例 如 : 


ADJ+N, ADV+N, QA+N, FN+N, NA+N, NV+N, V+N, Prep+N, 
N+FN; 

N+V, ADJ+V, V+V; 

N+NV, ADJ+NV, AV+NV, NQA+NV, QA*NV, NV+NV; 

N+PR, QA+PR, V+PR, NQA+PR. 


其 中 ，ADJ 表 示 形容 词 ，ADV 表 示 副 词 ，QA 表 示 限 定 词 ，FN 表 
示 方 位 词 ，NA 表 示 名 形 同 形 词 ，NV 表 示 名 动 同 形 词 ，Prep 表 示 介 
词 ，AV 表 示 形 动 同形 词 ，NQA 表 示 名 限 同形 词 ，PR 表 示 结 构 助 词 ， 
其 他 与 前 述 相 同 。 


(2) 词组 类 型 标记 + 词类 标记 


PT- 结 构 由 一 个 词组 类 型 标记 和 一 个 词类 标记 构成 ， 词 组 类 型 标 
记 在 前 ， 词 类 标记 在 后 。 例 如 : 


VP+N, VP+NV; 
NP+V, NP+N; 
NVP+N, NVP+NV; 


AP+N, AP+NV. 


其 中 ，NVP 表 示 名 动 同形 词 ，AP 表 示 形 容 词 词组 ， 其 他 与 前 述 相 
同 。 


(3) 词类 标记 + 词组 类 型 标记 


PT- 结 构 由 一 个 词类 标记 和 一 个 词组 类 型 标记 构成 ， 词 类 标记 在 
前 ， 词 组 类 型 标记 在 后 。 例 如 : 


N+NP, QA+NP, NV+NP, V+NP; 
N+VP, V+VP; 
N+NVP, QA+NVP, NV+NVP, V+NVP, EN+NVP. 


(4) 词组 类 型 标记 + 词组 类 型 标记 
由 两 个 词组 类 型 标记 构成 。 例 如 : 


AP+NP; 

NP+VP, NP+NVP; 
VP+NP, VP+NVP, VP+VP; 
NVP+NP; 

PP+VP. 


其 中 ，PP 表 示 介词 词组 ， 其 他 与 前 述 相同 。 


术语 的 词组 类 型 结构 可 以 直接 从 二 又 单 标记 树 形 图 中 表示 出 来 ， 
因此 ， 它 是 一 种 显 性 的 结构 。 


树 形 岁 中 某 一 层级 的 两 个 相 邻 树 校 结 点 上 的 句法 功能 信息 ， 叫 做 
术语 的 句法 功能 结构 (Syntactic Functional Structure 18] fj SF- Zi 
构 ) 。 这 种 结构 在 二 又 单 标记 树 形 图 中 没有 标 出 ， 因 此 ， 它 是 一 种 隐 
性 的 结构 。 这 种 隐 性 结构 与 显 性 的 词组 类 型 结构 之 间 存 在 着 极为 复杂 
的 对 应 关系 ， 这 是 汉语 词组 类 型 术语 的 最 重要 的 特点 。 


由 于 二 又 树 形 图 中 的 子 树 都 是 二 又 的 ， 术 语 的 句法 功能 结构 也 相 
应 地 由 前 后 两 个 句法 功能 成 分 组 成 ， 可 以 分 为 以 下 几 种 : 


(1) 主 谓 式 : 由 主语 后 加 谓语 构成 。 简 称 SP- 式 (SP 
construction) 。 

主语 + 谓语 

例如 : “标记 / 读 出 ”。 

(2) WAR: 由 述 语 后 加 宾语 构成 。 简 称 PO- 式 (PO 
construction) 。 其 格式 为 : 

述 语 + 宾 语 

例如 : “编制 /程序 ”。 

(3) 述 补 式 : 由 述 语 后 加 补 语 构 成 。 简 称 PC- 式 (PC 
construction) 。 其 格式 为 : 

述 语 + 补 语 

例如 : “ 读 / 出 ”。 


(4) 定 中 式 : 由 定语 后 加 名 词性 中 心 语 构 成 。 简 称 AH- 式 (AH 
construction) 。 其 格式 为 : 


定语 + 名 词性 中 心 语 

例如 : “数据 /媒体 ”。 

(5) 状 中 式 : 由 状语 加 动词 性 中 心 语 构 成 。 人 简称 DH- 式 (DH 
construction) 。 其 格式 为 : 

状语 + 动词 性 中 心 语 

例如 : “多 重 /穿孔 ， 再 /局 动 ”。 


(6) 联 谓 式 : 由 前 后 两 个 动词 性 成 分 联合 而 成 ， 而 且 这 两 个 动词 
性 成 分 的 功能 地 位 是 平等 的 。 人 简称 RP- 式 (RP construction) 。 其 格式 


动词 性 成 分 + 动词 性 成 分 
例如 : “输入 /和 输出 ”。 


(7) 联 体式 : 由 前 后 两 个 名 词性 成 分 联合 而 成 ， 而 且 这 两 个 名 词 
性 成 分 的 功能 地 位 是 平等 的 。 人 简称 RN- 式 (RN construction) 。 其 格式 


名 词性 成 分 + 名 词性 成 分 
例如 : “字母 数字 ”。 


复合 量词 也 属于 联 体 式 。 例 如 ,，“ 吨 /公里 ， 干 瓦 /小 时 ”。 
汉语 术语 中 的 各 种 词组 都 是 由 这 些 SF- 结 构 组 合 而 成 的 。 


在 由 前 后 两 个 句法 成 分 组 成 的 句法 功能 结构 中 ， 句 法 功能 的 着 重 
所 可 能 有 所 不 同 ， 这 种 着 重点 ， 就 叫做 功能 焦点 (functional focus) ° 
有 的 结构 的 功能 焦点 在 前 ， 有 的 结构 的 功能 焦点 在 后 ， 有 的 结构 的 功 


a 


能 焦点 则 是 并 列 的 。 按 功能 焦点 的 不 同 ， 可 以 把 术语 的 句法 功能 结构 
( 即 SF- 结 构 ) 分 为 三 种 类 型 


(1) 前 焦 型 :功能 焦点 在 前 一 成 分 的 SF- 结 构 。 它 包括 : 


ii. 述 补 式 : 功 


焦点 在 述 语 上 。 
焦点 也 在 述 语 上 。 


umb anb 
GG GG 


述 宾 式 和 述 补 式 的 前 焦 型 结构 ， 其 字面 含义 往往 是 相通 的 。 例 
如 ， 述 宾 式 前 焦 型 结构 * 读 /数据 ?和 述 补 式 前 焦 型 结构 * 读 /出 *， 其 基本 
的 字面 含义 彼此 相 容 。 


i EEA: 功能 焦点 在 谓语 上 。 
i EPA: 功能 焦点 在 名 词性 中 心 语 上 。 
üi 状 中 式 ， 功能 焦点 在 动词 性 中 心 语 上 。 


主 请 式 、 定 中 式 和 状 中 式 的 后 焦 型 结构 ， 其 字面 含义 也 往往 是 相 
通 的 。 例 如 ,在 “信息 处 理 不 了 ”及 “信息 的 处 理 很 成 功 ” 这 两 个 句子 
中 , “信息 /处 理 ? 征 主 谓 式 后 焦 型 结构 , “信息 的 /处 理 ” 是 定 中 式 后 焦 型 
结构 ， 其 字面 含义 彼此 相 容 。 又 如 , “立即 的 / 编 址 ?是 定 中 式 后 焦 型 结 
构 , “立即 地 / 编 址 ”和 是 状 中 式 后 焦 型 结构 ， 其 字面 含义 也 十 彼此 相 容 
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(3) 并 焦 型 : 功能 焦点 在 前 后 两 个 成 分 上 的 SF- 结 构 。 它 包括 : 


i 联 体式 ， 功 能 焦点 在 前 后 两 个 体 词性 成 分 上 。 
ü 联 谓 式 ， 功 能 焦点 在 前 后 两 个 谓词 性 成 分 上 。 


联 体式 和 联 谓 式 的 并 焦 型 结构 ， 其 字面 含义 也 往往 是 相通 的 。 例 
如 ， 在 “计算 机 的 输出 输入 系统 ”和 “他 们 输出 输入 数据 ”这 两 个 短语 
中 ， 前 一 个 “输出 /输入 ”十 联 体 性 并 焦 结构 ， 后 一 个 “输出 /输入 ”十 联 请 
性 并 焦 结 构 ， 而 这 两 个 “输出 /输入 ”的 字面 售 义 显然 也 是 彼此 相 容 的 。 


可 见 ， 从 功能 焦点 的 角度 来 看 问题 ， 述 宾 式 和 壕 补 式 比较 接近 ， 
主 谓 式 、 定 中 式 和 状 中 式 比 较 搂 近 ， 联 谓 式 和 联 体式 比较 接近 。 我 们 
把 功能 焦点 相同 的 结构 叫 叫 同 焦 结构 ， 把 功能 焦点 不 同 的 结构 叫 异 焦 
结构 。 各 类 SF- 结 构 形成 的 同 焦 结 构 ( 记 为 “+”) 和 异 焦 结构 GU 
为 “-”) 如 下 表 所 示 : 


从 表 中 可 看 出 ,“ 主 谓 式 一 定 中 式 ”“ 主 谓 式 一 状 中 式 ”`“ 述 宾 式 
一 述 补 式 ”`\“ 定 中 式 一 状 中 式 ”\“ 联 谓 式 一 联 体式 ”等 SF- 结 构 对 ， 都 
征 同 焦 结 构 ， 其 它 的 各 个 SF- 对 ， 都 是 异 焦 结构 。 


树 形 图 中 某 一 层级 的 子 树 中 两 个 相 邻 树 校 结 点 的 逻辑 语义 信息 ， 
叫做 术语 的 逻辑 语义 结构 (Logic Semantic Structure, ， 人 简称 LS- 结 
Tg) 。 这 种 结构 在 表示 术语 结构 的 二 又 单 标 记 树 形 图 中 亦 未 标 出 ， 也 
是 一 种 隐 性 的 结构 。 


术语 的 逻辑 语义 结构 主要 是 指 以 逻辑 谓词 为 中 心 ， 各 个 论 元 
(argument) 与 逻辑 谓词 (logical predicate) 之 间 的 关系 。 例 如 ， 施 事 
者 、 受 事 者 、 工 具 、 目 的 、 苑 围 、 结 果 、 方 位 等 。 这 种 逻辑 语义 结构 
所 表现 出 来 的 含义 ， 强 烈 地 影响 着 人 们 对 术语 的 字面 含义 的 理解 ， 也 
是 需要 加 以 认真 研究 的 。 


任何 术语 都 包括 PT- 结 构 、SF- 结 构 和 LS- 结 构 这 三 种 层次 各 异 的 
结构 ， 它 们 之 间 的 相互 作用 ， 决 是 了 术语 的 字面 售 义 的 基本 内 容 。 我 
们 管 第 可 以 对 术语 的 含义 作出 “ 鹿 文 生 义 ”或 者 “顾名思义 ”的 解释 ， 正 
征 这 三 种 结构 早 我 们 头脑 中 相互 作用 的 结 末 。 因 此 ， 我 们 用 产 格 的 科 
学 方法 来 分 析 这 三 种 不 同 的 结构 ， 束 有 可 能 揭示 这 种 " 望 文生 义 ” 或 " 磊 
名 思 义 ?现象 的 某 些 实质 ， 从 而 对 术语 的 字面 侣 义 作出 科学 的 解释 。 


术语 的 PT- 结 构 、SF- 结 构 以 及 LS- 结 构 之 间 的 关系 可 表示 如 下 : 


图 5.9 术语 中 的 三 种 结构 


如 果 我 们 能 够 根据 术语 的 PT- 结 构 ， 通 过 有 穷 步 又 ， 目 动 地 推算 
出 术语 的 SF- 结 构 ， 并 进而 推算 出 术语 的 LS- 结 构 ， 那 么 ， 惑 可 以 做 到 
术语 语义 的 目 动 理 解 。 这 正 是 中 文科 技 文章 的 目 然 语言 理解 和 汉 外 机 
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然而 ， 对 于 汉语 来 襄 ， 这 是 一 个 顾 为 复 洒 和 相当 困难 的 研究 诬 


汉语 术语 的 特点 是 ， 这 三 个 结构 之 间 ， 在 绝 大 多 数 情况 下 ， 不 存 
在 一 一 对 应 关系 。 同 样 的 PT- 结 构 ， 可 以 解释 为 不 同 的 吉 干 个 SF- 结 
TJ; 同样 的 SF- 结 构 ， 又 可 以 解释 为 不 同 的 大 干 个 LS- 结 构 。 


例如 ， 形 式 为 V+N 的 PIT- 结 构 ， 它 的 SF- 结 构 可 以 解释 为 定 中 式 
(向 应 /时 间 ” ， 又 可 以 解释 为 述 宾 式 CER”) 。 可 见 ，PT- 结 构 
与 SF- 结 构 不 一 一 对 应 。 融 是 V+N 的 SF- 结 构 被 判断 为 述 宾 式 之 后 ， 这 
个 SF- 结 构 的 LS- 结 构 还 可 能 不 同 。 例 如 ， 述 宾 式 的 V+N 可 以 解释 
为 “谓词 + 受 事 者 ”(“ 查 / 表 ”) ， 又 可 以 解释 为 “谓词 + 施 事 者 ”(〈“ 跑 / 
Te”) ， 又 可 以 解释 为 “谓词 + 结果 ”(“ 印 / 字 ”) ， 又 可 以 解释 为 “谓词 
+ 目的 ”(“ 归 / 零 *”) ， 又 可 以 解释 为 “谓词 + 方向 ”(“ 面 向 /问题 *?) e uf 
见 ， 术 语 的 SF- 结 构 与 LS- 结 构 也 不 一 一 对 应 。 


正 因 为 汉语 中 这 三 种 结构 关系 错综复杂 ， 在 传统 的 汉语 人 研究 中 ， 
长 期 以 来 ,许多 学 者 把 这 三 种 不 同 的 结构 混同 在 “语法 ”这 个 科目 下 进 
行 研 究 ， 并 由 此 而 产生 了 许 许多 多 的 混乱 。 在 现代 汉语 研究 史上 的 两 
次 大 规模 的 讨论 〈《“ 汉 语词 类 问题 "的 讨论 和 “汉语 主 宾语 问题 "的 讨 
iE) 中 ， 尽 管 一 些 有 远见 意识 的 前 礁 学 者 ， 已 初步 涉及 这 三 种 结构 之 
间 的 某 些 复杂 关系 ， 摆 出 了 许多 有 趣 的 语言 事实 ， 但 是 ， 不 少 人 往往 
把 这 种 极为 复杂 的 关系 和 位 单 化 。 在 “汉语 词类 问题 ?的 讨论 中 ， 束 有 人 
把 语言 成 分 的 PT- 结 构 与 SF- 结 构 混 为 一 谈 ， 不 知道 同一 PT- 结 构 中 的 
成 分 ， 可 以 在 SF- 结 构 中 具有 不 同 的 句法 功能 ， 结 果 得 出 “汉语 无 词 
类 ”的 结论 。 在 “汉语 主 宾语 问题 "的 讨论 中 ， 又 有 人 则 把 语言 成 分 的 
SF- 结 构 与 LS- 结 构 混 为 一 谈 ， 不 知道 同一 个 SF- 结 构 中 的 成 分 ， 在 
LS- 结 构 中 可 以 具有 不 同 的 逻辑 语义 关系 ， 结 果 他 们 根据 逻辑 语义 关 
系 来 决定 主语 、 宾 语 等 句法 功能 成 分 ， 把 “ 施 事 者 一律 定 为 主语 ， 
把 “ 受 事 者 "一律 定 为 宾语 ， 不 惜 削 足 适 履 ， 因 有 果 倒 置 ， 弄 得 汉语 语法 


体系 犹如 一 团 乱 麻 ， 令 人 望 而 生 县 。 这 种 语法 研究 所 得 出 的 种 种 “语法 
规律 "， 尤 其 不 适合 于 在 汉语 的 信息 处 理工 作 中 使 用 ， 为 了 还 汉语 语法 
本 来 的 面目 ， 必 须 首先 明确 地 区 分 PT- 结 构 、SF- 结 构 和 LS- 结 构 这 三 
种 不 同 的 结构 ， 人 研究 出 和 们 各 目的 特点 和 规律 ， 然 后 再 进一步 研究 这 
三 种 结构 之 间 的 各 种 极为 错综复杂 的 关系， 只 有 这 样 ， 才 有 可 能 正确 
地 解释 汉语 结构 的 规律 ， 给 汉语 的 研究 理 出 可 循 的 头绪 来 。 这 个 问题 
不 仅 对 于 术语 学 的 研究 ， 而 且 对 于 整个 的 汉语 研究 ， 都 是 十 分 重要 
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首先 ， 我 们 来 研究 汉语 术语 中 的 PT- 结 构 与 SF- 结 构 之 间 的 关系 。 


汉语 术语 中 的 PIT- 结构 与 SF- 结 构 有 一 一 对 应 之 处 ， 亦 有 许多 不 一 
一 对 应 之 处 ， 它 们 之 间 并 不 存在 同 构 关系 (isomorphism) ° 


汉语 术语 中 PT- 结 构 与 SF- 结 构 意 义 对 应 的 情况 : 


(1) QA+N -EPR (例如 :“ 一 元 / 算 子 ”) 

ADJ+N 一 定 中 式 (例如 : “绝对 /误差 ”) 

NA+N 一 定 中 式 (例如 : “对 称 /误差 ”) 

NQA+N > ESQ (例如 :“ 异 /元 件 ”) 

AP+NP > EPR (例如 : “信息 量 的 /二 进 制 单位 ”) 
(2) ADV+V 一 状 中 式 (例如 : “再 /启动 ”) 

QA+V 一 状 中 式 (例如 : “LEFT ) 

PP+VP 一 状 中 式 (例如 :“ 五 中 / 取 二 ”) 


在 汉语 的 术语 中 ， 有 不 少 术 语 古 无 歧义 的 。 这 些 无 歧义 术语 的 存 
在 ， 使 得 汉语 术语 可 能 正确 无 误 地 执行 其 交际 功能 。 


但 是 ， 由 于 PT- 结 构 与 SF- 结 构 不 存在 同 构 关系 ， 在 不 少 的 场合 ， 
从 PT- 结 构 到 SF- 结 构 存 在 着 一 对 多 的 情况 。 


例如 ，V+N 这 个 PT- 结构， 其 SF- 结 构 可 以 是 述 宾 式 〈“ 取 /比例 
尺 ”) ， 也 可 以 是 定 中 式 (AEB) 。 因 此 ， 同 一 个 “V+N” 的 PT- 结 
构 ， 就 可 能 形成 兼 具 述 宾 式 和 定 中 式 功 能 的 SF- 结 构 。 例 如 , RAR 
块 > 这 个 术语 由 V+N 组 成 ， 可 以 解释 为 “ 装 入 了 某 一 个 模块 ”〈 述 宾 
X) ， 也 可 以 解释 为 “具有 可 以 被 装 入 的 性 质 的 模块 ”〈 定 中 式 ) ， 同 
一 个 术语 兼 具 述 宾 式 和 定 中 式 的 功能 ， 产 生 了 层 义 。 


又 如 ,“V+V" 这 个 PT- 结 构 ， 其 SE- 结 构 可 以 是 联 谓 式 (“ 译 / 
FI") ， 也 可 以 是 状 中 式 KE”) ， 也 可 以 是 述 宾 式 (“ 受 / 保 
ip") ， 也 可 以 是 述 补 式 〈“ 读 /出 % ， 因 此 ， 同 一 个 V+V 的 PT- 结 构 ， 
就 可 能 形成 兼 具 多 种 句法 功能 的 SF- 结 构 。“ 改 变 / 转 储 ” 这 个 术语 由 
V+V 组 成 ， 其 含义 可 以 解释 为 “改变 某 种 转 储 ”( 壕 宾 式 ) ， 也 可 以 解 
释 为 “ 按 改 变 的 方式 ， 对 已 经 改变 的 存储 位 置 进行 转 储 ”( 状 中 式 ) 。 
这 样 , “改变 / 转 储 ”这 个 术语 束 有 了 疏 义 。 


PT- 结 构 与 SF- 结 构 不 一 一 对 应 的 情况 ， 在 汉语 的 术语 中 并 不 少 
见 ， 有 必要 加 以 认真 的 过 细 的 研究 。 


当 一 个 PT- 结 构 对 应 于 一 个 以 上 的 SF- 结 构 时 ， 就 有 可 能 对 这 个 
PT- 结 构 的 句法 功能 作出 一 种 以 上 的 不 同 解 释 ， 这 时 ， 就 说 这 个 PT- 结 
构 是 潜在 歧义 结构 (potential ambiguous structure) 。 之 所 以 说 是 “潜在 
歧义 ”， 是 因为 在 这 个 PIT- 结 构 中 ， 当 用 词汇 单元 来 代 奉 词类 标记 时 ，， 
这 种 歧义 有 可 能 继续 保持 ， 也 有 可 能 得 到 消除 ， 因 而 这 种 歧义 是 潜在 
的 而 不 是 现实 的 ， 它 只 具有 了 歧义 的 可 能 性 ， 但 是 还 不 一 定 具有 歧义 
的 现实 性 。 


例如 ，V+N 这 一 个 PT- 结 构 束 古 次 在 歧义 结构 ， 它 具有 “ 壕 宾 一 定 
中 潜在 卜 义 ”， 简 称 为 “ 述 宾 一 定 中 歧义 ”"， 在 加 入 词汇 单元 时 ， 这 种 潜 
在 歧义 有 可 能 保持 ， 也 有 可 能 消除 。 


当 V=“ 取 ”，N=“ 比 例 尺 * 时 ， 由 于 这 两 个 单词 的 词汇 意义 的 制 
约 , “比例尺 * 在 词汇 意义 上 不 能 接受 “ 取 ” 的 修饰 ， 排 除了 定 中 式 之 可 
能 ， 只 能 解释 为 一 个 述 宾 式 ， 歧 义 消 除 ,“ 取 比例 尺 * 未 能 成 为 一 个 现 
实 的 此 义 结构 。 


当 V="“ 黎 者 ”，N=“ 段 ?时 ， 由 于 这 两 个 单词 的 词汇 意义 的 制 
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SV-"APED", NFR, APL ME, “字符 ”可 以 被 分 
割 ， 也 可 以 具备 “分 割 ” 这 种 特性 ， 因 此 ， 洪 在 此 义 不 能 消除 ， 并 转化 
为 现实 的 卜 义 ， 形 成 具有 “ 述 宾 一 定 中 上 收 义 ”的 现实 的 上 下 义 结构 。 由 此 
可 以 看 出 ， 在 还 没有 用 词汇 单元 来 代 兰 PT- 结 构 中 的 词类 标记 时 , PT- 
结构 还 只 有 洪 在 的 可 能 性 ， 这 种 玻 义 只 能 是 “潜在 必 义 ”。 


应 该 说 明 的 是 ,“ 的 字 结 构 * 和 “介词 结构 "是 两 种 特殊 的 PT 结构 ， 
它们 不 能 直接 与 SF-_ 结 构 发 生 对 应 关系 ， 只 是 在 它们 与 其 它 的 单词 或 
词组 类 型 成 分 构成 一 个 更 大 的 PT- 结 构 之 后 ， 才 能 作为 这 个 更 大 的 PT- 
结构 的 一 部 分 与 SF- 结 构 发 生 对 应 关系 。 例 如 ,“ 块 间 /间隔 "这 个 术语 
中 的 “ 块 间 * 是 一 个 介词 结构 ， 这 个 介词 结构 不 能 单独 与 SF_ 结 构 对 应 ， 
而 只 能 作为 “ 块 间 结 构 * 这 个 更 大 的 pT_ 结 构 的 一 部 分 ， 与 “ 定 中 式 ”这 个 
SF- 结 构 发 生 对 应 关系 ， 作 为 " 定 中 式 "这 个 SF- 结 构 的 定语 部 分 。 又 
如 ,，“ 对 数 的 首 数 ” 这 个 术语 中 的 “对 数 的 "是 一 个 “的 字 结 构 ”( 可 以 把 


它 看 成 AP) ， 这 个 “的 字 结 构 ” 不 能 单独 与 SF- 结构 发 生 对 应 关系 ， 而 
只 能 作为 “对 数 的 首 数 ”这 个 更 大 的 PT- 结构 的 一 部 分 ， 与 “ 定 中 式 ” 这 个 
SF- 结 构 发 生 对 应 关系 ， 作 为 其 中 的 定语 部 分 。 情 态 动词 与 动词 形成 
的 PT- 结 构 MV+V， 数 词 与 量词 形成 的 PT- 结构 C+L， 连 词 与 名 词 形 成 
的 PT- 结 构 CJ+N， 它 们 的 结合 都 十 分 紧密 ， 它 们 都 不 能 直接 与 SF- 结 
构 发 生 对 应 关系 ， 而 只 能 作为 更 大 的 PT- 结 构 的 一 部 分 ， 参 与 到 更 大 
的 PIT- 结构 中 去 ， 才 能 与 SF- 结 构 发 生 对 应 关系 。 例 如 , “可 探 存 储 
器 ”这 个 术语 中 的 “可 控 ”， 其 PT_ 结构 为 MV+V， 这 个 PT- 结构 不 能 

接 与 SF- 结 构 发 生 关系 ， 当 它 与 “存储 器 ”这 个 名 词 一 起 ， 组 成 一 个 更 大 
的 PT- 结 构 VP+N 之 后 ， 才 能 与 定 中 式 这 个 SF- 结 构 发 生 关 系 ， 作 为 这 
个 SF- 结 构 的 定语 。 又 如 ,， “两 倍 寄 存 器 * 这 个 术语 中 的 “两 倍 ”“"， 其 PT- 
结构 为 C+L， 这 个 PT- 结 构 不 能 直接 地 与 SF- 结 构 发 生 对 应 关系 ， 当 它 
与 “寄存 器 ”这 个 名 词 一 起 ， 组 成 一 个 更 大 的 PT- 结 构 CLP+N 之 后 ， 才 
能 与 定 中 式 这 个 SF- 结构 发 生 对 应 关系 ， 作 为 这 个 SF- 结 构 中 的 定语 。 
再 如 , “算术 和 逻辑 (运算 ) ”这 个 术语 中 的 < 和 逻辑 ”， 其 PT- 结构 为 
CJ+L， 这 个 PT- 结 构 也 不 能 直接 与 SF- 结 构 发 生 关 系 ， 当 它 与 它 前 面 
的 “算术 ”这 个 名 词 在 一 起 ， 组 成 一 个 更 大 的 PT- 结 构 N+NP 之 后 ， 才 能 
与 联 体式 这 个 SF- 结构 发 生 关 系 ， 作 为 这 个 SF- 结 构 中 平行 体 词 的 一 部 
分 。 这 些 特殊 问题 ， 由 于 在 传统 的 汉语 语法 研究 中 没有 很 好 地 解决 ， 
在 汉语 术语 的 潜在 歧义 研究 中 ， 只 好 把 它们 作为 特殊 情况 来 处 理 了 。 


ON 


当 汉 语词 组 类 型 术语 中 的 PT- 结 构 与 SF- 结 构 不 一 一 对 应 时 ， 束 会 
产生 潜在 歧义 。 汉 语 术 语 中 的 潜在 歧义 结构 主要 有 以 下 几 类 : 


一 、 述 宾 一 定 中 歧义 : 下 列 的 PIT- 结构 会 发 生 * 述 宾 一 定 中 层 


(1) V+N: 例如 ,，“ 触 发 /电路 "， 其 字面 含义 可 以 解释 为 “触发 了 
某 个 电路 ”( 述 宾 式 ) ， 也 可 以 解释 为 < 具有 触发 性 质 的 电路 ”( 定 中 
式 ) ， 是 异 焦 卜 义 结构 。 但 是 ,“ 编 制 /程序 ”只 能 解释 为 “编制 某 种 程 
序 ”， 古 述 宾 式 ,“ 保 留 / 字 ” 只 能 解释 为 “人 留 的 字 ”， 是 定 中 式 ， 潜 在 歧 
义 消失 。 


(2) V+NQA: 例如 , “搜索 /顺序 ”， 其 字面 含义 可 以 解释 为 “ 搜 
索 某 种 顺序 ”( 述 宾 式 ) ， 也 可 以 解释 为 “搜索 的 顺序 ”( 定 中 式 ) ， 是 
异 焦 卜 义 结构 。 但 是 ,，“ 排 /顺序 ”只 能 解释 为 “ 排 某 种 顺序 ?"， 古 壕 宾 
A. “工作 /顺序 ”只 能 解释 为 “工作 的 顺序 ?”， 古 定 中 式 ， 潜 在 卜 义 消 
Beg 


(3) AV+N: 例如 , “固定 /存储 器 ”， 其 字面 含义 可 以 解释 为 “ 固 
ENER” ORRA) ， 也 可 以 解释 为 “固定 的 存储 器 ”( 定 中 
) ， 是 异 焦 卜 义 结构 。 但 是 ,“ 固 定 / 频 度 ”只 能 解释 为 “固定 的 频 
'， 征 定 中 式 ， 湾 在 歧义 消失 。 


` 
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(4) AV+NP: 例如 ,“ 固 定 / 范 数 发 生 器 *， 其 字面 售 义 可 以 解释 
为 “固定 某 种 函数 发 生 器 ”( 述 宾 式 ) ， 也 可 以 解释 为 “固定 的 函数 发 生 
器 ”( 定 中 式 ) ， 是 异 焦 歧义 结构 。 但 是 ,“ 固 定 / 切 分 原则 ”只 能 解释 
为 “固定 的 切 分 原则 ”， 是 定 中 式 ， 法 在 歧义 消失 。 这 里 ,， "ERA 
器 ”和 “ 切 分 原则 ”都 是 名 词 词 组 ， 而 不 是 单个 的 名 词 。 


(5) NV+N: 例如 ,“ 转 移 /指令 "*， 其 字面 含义 可 以 解释 为 “转移 / 
某 个 指令 ”( 述 宾 式 ) ， 也 可 以 解释 为 “转移 的 指令 ”( 定 中 式 ) ， 是 异 
焦 卜 义 结构 。 但 是 , “转移 /方式 ”只 能 解释 为 “转移 的 方式 ”"， 是 定 中 
式 ， 潜 在 歧义 消失 。 


' 只 能 解释 


为 “直接 插入 某 个 子 程序 ”( 述 宾 式 ) ， 也 可 以 解释 为 "直接 插入 的 子 程 


(6) VPN: 例如 , “直接 插 入 / 子 程序 >?"， 其 字面 含义 可 以 解释 


是 异 焦 疏 义 结构 。 但 是 ,“ 表 局 动 /条 件 ; 


序 ”( 定 中 式 ) ， 

为 “再 启动 的 条 件 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 
(7) NVP+N: 例如 , “输出 输入 /过 程 >， 其 字面 含义 可 以 解释 

为 “输出 输入 某 种 过 程 ”( 述 宾 式 ) ， 也 可 以 解释 为 “输出 输入 的 过 

程 ”( 定 中 式 ) ， 是 异 焦 歧义 结构 。 但 是 , “设备 控制 /字符 ”只 能 解释 

字符 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 

(8) V+NP: 例如 , “联合 /信息 量 *»， 其 字面 含义 可 以 解释 为 “ 联 


为 “用 于 设备 控制 的 
合 某 些 信 息 量 ”( 述 宾 式 ) ， 也 可 以 解释 为 “联合 的 信息 量 ”( 定 中 
“监控 /穿孔 机 ?只 能 解释 为 "用 于 监控 


式 ) ， 是 异 焦 歧义 结构 。 但 是 
的 罕 和 也 机”， 是 定 中 式 ， 潮 在 歧义 消失 。 
(9) NV+NP: 例如 , “转移 /信息 量 *， 其 字面 售 义 可 以 解释 为 “ 转 


移 茶 些 信息 量 ”( 述 宾 式 ) ， 也 可 以 解释 为 “转移 的 信息 量 ”( 定 中 
"只 能 解释 为 “用 于 服 


是 异 焦 歧 义 结构 。 但 是 ,， “服务 / 例 行 程序 ， 
其 字面 含义 可 以 解释 


AX). 
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(10) NV+NVP: 例如 , “控制 /转移 指令 ” 
ORE) ， 也 可 以 解释 为 “用 于 控制 的 转移 指 
字符 ”只 能 解释 


为 “控制 某 种 转移 指令 ” 
( 定 中 式 ) ， 是 异 焦 歧 义 结构 。 但 是 , “通讯 /控制 字 和 
T, 


A” 
是 定 中 式 ， 潜 在 歧义 消失 。 
二 、 主 谓 一 状 中 歧义 : 下 列 PT- 结构 会 发 生 主 谓 一 状 中 歧义 。 


为 “用 于 通讯 的 控制 
(1) N+V: 例如 , “机 器 /阅读 "， 其 字面 含义 可 以 解释 为 “由 机 器 
Rie” (ERA, “Hla ers) ， 也 可 以 解释 为 “ 按 机 器 的 方式 来 


阅读 ”( 状 中 式 ) ， 是 同 焦 歧 义 结构 。 但 是 , “系统 /测试 ?只 能 解释 
为 “由 系统 来 测试 "， 只 能 是 主 谓 式 , “系统 ?是 施 事 , “边缘 /穿孔 ”只 能 
解释 为 “在 边 毕 处 来 进行 穿孔 ”， 只 能 是 状 中 式 ， 洪 在 歧义 消失 。 


(2) C+V: 例如 , “四 售 五 入 ”中 的 “四 / 舍 ”。 其 字面 含义 可 以 解释 
为 “四 被 售 去 了 ” (HRR, “四 ”是 受 事 ) ， 也 可 以 解释 为 “ 当 小 于 或 等 
于 四 的 时 候 就 进行 舍 入 运算 ”( 状 中 式 ) ， 是 同 焦 歧义 结构 。 但 
是 ,“ 二 五 /混合 "只 能 解释 为 < 用 与 二 和 五 有 关 的 数 来 混合 "， 只 能 是 状 
中 式 ， 潜 在 歧义 消失 。 


(3) N+VP: 例如 ,“ 标 记 / 读 出 ”的 字面 含义 只 能 是 “标记 被 读 出 
了 ”， 只 能 是 主 谓 式 ; ARRIT MAT HY RES Zn FERRE 2 FERE 
方式 来 镀 线 ， 只 能 是 状 中 式 。 这 说 明 ，N+VP 这 一 个 格式 具有 “ 主 谓 一 
状 中 ”的 潜在 歧义 ,但 是 ， 当 在 具体 的 术语 “标记 / 读 出 ”( 主 谓 式 ，) 
RHEE? CIRO) 中 ， 这 种 潜在 歧义 消失 了 。 


(4) C+NV: 例如 ， 在 “二 输入 加 法 器 ?中 的 “二 /输入 ”， 其 字面 含 
义 可 以 解释 为 “二 个 数据 被 输入 了 ”( 主 谓 式 ) ， 又 可 以 解释 为 “ 按 二 个 
数据 的 方式 来 进行 输入 ”( 状 中 式 ) ， 因 而 C+NV 束 成 了 潜在 歧义 结 
构 。 我 们 在 中 文 术语 的 数据 库 中 ， 还 未 发 现 这 种 结构 中 的 潜在 卜 义 消 
失 的 例子 。 这 说 明 ， 潜 在 疏 义 结构 中 的 痪 在 歧义 ， 也 可 能 不 会 消失 ， 
在 同类 格式 的 术语 中 都 始终 保持 着 。 


(5) NP+VP: 例如 , “微型 计算 机 /联机 监视 ”的 字面 含义 ， 可 以 
解释 为 “由 微型 计算 机 来 联机 监视 ”( 主 谓 式 , “微型 计算 机 ?是 施 
事 ) ， 也 可 以 解释 为 “用 微型 计算 机 为 工具 进行 联机 监视 ”( 状 中 
X) ， 是 同 焦 上 层 义 结构 。 但 是 ,“ 计 算 机 程序 /自动 设计 ”只 能 解释 
为 “计算 机 程序 被 自动 设计 了 ”(“ 计 算 机 程序 ”是 受 事 ) , xx 


式 ; “请 求 式 / 调 页 ”只 能 解释 为 “ 按 请 求 式 来 调 页 ”， 是 状 中 式 ， 潜 在 歧 
人 

三 、 定 中 一 状 中 歧义 ， 下 列 PT- 结 构 会 产生 定 中 一 状 中 歧义 。 

(1) QA+NV: 例如 ,“ 实 时 /运算 ”的 字面 含义 ， 可 以 解释 为 “ 实 


时 的 运算 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 实时 的 方式 来 运算 ”( 状 中 
st) ， 是 同 焦 歧义 结构 。 


(2) NA+NV: 例如 , “等 价 /运算 ”的 字面 含义 ， 可 以 解释 为 “等 
价 的 运算 ”《〈 定 中 式 ) ， 又 可 以 解释 为 “ 按 等 价 的 方式 来 运算 ”( 状 中 
X) ， 是 同 焦 歧义 结构 。 


(3) ADJ+NV: 例如 , “简单 /缓冲 ”的 字面 含义 ， 可 以 解释 为 “ 简 
单 的 缓冲 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 简 单 的 方式 来 缓冲 ”( 状 中 
T) ， 是 同 焦 歧义 结构 。 


(4) ADV+NV: 例如 , “立即 / 编 址 * 的 字面 含义 ， 可 以 解释 为 “ 立 
即 的 编 址 ”( 定 中 式 ) ， 又 可 以 解释 为 “立即 地 编 址 ”( 状 中 式 ) ， 是 同 
焦 歧 义 结构 。 


(5) VP+NV: 例如 ,“ 无 循环 /编码 ”的 字面 含义 ， 可 以 解释 为 “无 
循环 的 编码 ”( 定 中 式 ) ， 又 可 解释 为 “ 按 无 循环 的 方式 来 进行 编 
码 ”( 状 中 式 ) ， 是 同 焦 疏 义 结构 。 


(6) AP+NV: 例如 ,“ 自 相对 / 编 址 ”的 字面 含义 ， 可 以 解释 为 “ 自 
相对 的 编 址 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 自 相对 的 方式 来 进行 编 
址 ”( 状 中 式 ) ， 是 同 焦 歧义 结构 。 


(7) QA+NVP: 例如 ,“ 自 动 /顺序 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “自动 的 顺序 处 理 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 上 自动 的 方式 来 进行 
顺序 处 理 ”( 状 中 式 ) ， 是 同 焦 歧 义 结构 。 


(8) AV+NVP: 例如 ,“ 集 中 /数据 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “集中 的 数据 处 理 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 集 中 的 方式 进行 数 
据 人 处理”( 状 中 式 ) ， 是 同 焦 歧义 结构 。 


(9) VQA+NV: 例如 ,“ 无 条 件 / 转 移 指 令 ” 的 字面 含义 ， 可 以 解 
释 为 “无 条 件 的 转移 指令 ”( 定 中 式 ) ， 又 可 以 解释 为 "无条件 地 来 进行 
转移 指令 ”( 状 中 式 ) ， 是 同 焦 歧 义 结构 。 


这 些 定 中 一 状 中 潜在 歧义 结构 ， 在 上 述 的 各 个 词组 型 术语 中 ， 均 
保持 了 原 有 的 定 中 一 状 中 层 义 ， 这 也 许 是 由 于 定 中 一 状 中 蚊 义 是 同 焦 
结构 ， 层 义 对 于 词组 型 术语 的 理解 并 无 多 大 的 障碍 ， 因 此 ， 洪 在 层 义 
结构 都 转化 成 了 现实 的 下 义 结构 。 


四 、 述 宾 一 状 中 歧义 : 仅 有 V+VP 这 种 PT- 结构 存在 述 宾 一 状 中 必 
ve 


例如 , “破坏 / 读 出 ”的 字面 含义 ， 可 以 解释 为 “破坏 这 种 读 出 ”( 述 
宾 式 ) ， 又 可 以 解释 为 “ 按 破坏 的 方式 进行 读 出 ”( 状 中 式 ) ， 是 异 焦 
歧义 结构 。 但 是 ,“ 归 并 / 排 顺 序 ” 只 能 解释 为 “ 按 归 并 的 方式 来 排 顺 
序 ”， 是 状 中 式 ， 潜 在 卜 义 消失 。 


五 、 主 谓 一 定 中 歧义 : 下 列 PT- 结构 会 产生 主 谓 一 定 中 歧义。 


(1) NP+NV: 例如 ,“ 事 务 数据 /处 理 ” 的 字面 舍 义 ， 可 以 解释 
为 “事务 数据 被 处 理 了 ” (EEA) ， 又 可 以 解释 为 “事务 数据 的 处 


理 ”( 定 中 式 ) ， 是 同 焦 卜 义 结构 。 


(2) NP+NVP: 例如 , “计算 机 /辅助 管理 ”的 字面 含义 ， 可 以 解释 
为 “由 计算 机 来 辅助 管理 ”( 主 谓 式 ) ， 又 可 以 解释 为 “计算 机 的 辅助 管 
H (EPA) ， 是 同 焦 结构 。 


这 些 主 请 一 定 中 潜在 歧义 结构 ， 在 上 述 的 词组 型 术语 中 ， 均 保持 
了 原 有 的 主 请 一 定 中 收 义 ， 潜 在 卜 义 结构 都 转化 成 了 现实 的 皮 义 结 
构 。 


TX > TR IB: 仅 有 VP+VP 这 种 PIT- 结构 存 在 联 谓 一 状 中 
BES o PAH, 


“四 售 / 五 入 ”的 字面 侣 义 ， 可 以 解释 为 “四 售 并 且 五 入 ”， 和 是 联 谓 
式 ,“ 非 破坏 / 读 出 ”的 字面 侣 义 ， 可 以 解释 为 " 按 非 破坏 的 方式 来 读 
出 ”， 是 状 中 式 。 这 样 ，VP+VP 这 个 结构 ， 既 可 以 为 联 谓 式 ， 又 可 以 
为 状 中 式 ， 故 有 联 谓 一 状 中 次 在 下 义 ， 是 异 焦 攻 义 结构 。 当 这 个 PT- 
结构 为 "四 售 / 五 入 "时 ， 只 能 解释 为 联 谓 式 ， 不 能 解释 为 状 中 式 ， 湾 在 
歧义 消失 了 ; 当 这 个 PT- 结 构 为 " 非 破 坏 / 读 出 ”时 ， 只 能 解释 为 状 中 
式 ， 不 能 解释 为 联 谓 式 ， 潜 在 歧义 也 消失 了 。 


七 、 联 体 一 定 中 歧义 仅 有 N+N 这 种 PT- 结 构 存在 联 体 一 定 中 歧 
X o PRN, “字母 /数字 ”的 字面 含义 ， 可 以 解释 为 "字母 和 数字 ”， 和 是 联 
谓 式 ,“ 磁 / 头 ” 的 字面 舍 义 ， 可 以 解释 为 "有 磁性 的 读 写 头 ”， 是 定 中 
式 ， 因 此 ，PT- 结 构 N+N 束 有 “ 联 体 一 定 中 革 义 ”， 当 这 个 PT- 结 构 
为 “字母 数字” 时， 只 能 解释 为 联 体式 ， 不 能 解释 为 定 中 式 ， 汪 在 此 义 
消失 了 ， 当 这 个 PT- 结 构 为 “ 伐 / 头 ?时 ， 只 能 解释 为 定 中 式 ， 不 能 解释 
为 联 体式 ， 潜 在 卜 义 也 消失 了 。 


八 、 主 谓 一 定 中 一 状 中 层 义 : 下 面 的 PT- 结 构 会 产生 主 谓 一 定 中 
RPR ° 


(1) NENV: 例如 ,“ 条 件 /转换 ”的 字面 含义 ， 可 以 解释 为 “条 件 
被 转换 了 ” ( 主 谓 式 ) ， 又 可 以 解释 为 “条 件 的 转换 ”《 定 中 式 ) ， 还 可 
以 解释 为 “ 按 条 件 来 转换 ”( 状 中 式 ) ， 都 是 后 焦 型 结构 ， 所 以 ， 它 们 
征 同 焦 歧 义 结构 。" 人 信息/ 处 理 ” 的 字面 台 义 ， 可 以 解释 为 "信息 被 处 理 
了 ”( 主 谓 式 ) ， 又 可 以 解释 为 “信息 的 处 理 ”( 定 中 式 ) ， 也 是 同 焦 旷 
义 结构 ， 但 状 中 式 的 潜在 歧义 消失 了 。“ 消 居 / 答 ”的 字面 含义 ， 只 能 解 
释 为 消 奶 的 所 窒 ， 即 通讯 系统 中 接收 消 忆 的 那 一 部 分 ， 只 能 是 定 中 
式 ， 变 成 了 无 叔 义 结构 ， 主 请 式 和 状 中 式 的 潜在 歧义 都 消失 了 。 


(2) N+NVP: 例如 , “条 件 / 转 移 指令 ”的 字面 含义 ， 可 以 解释 
为 “由 条 件 来 转移 指令 ”( 主 调式 , “条 件 ” 是 施 事主 语 ) ， 也 可 以 解释 
为 “条 件 的 转移 指令 ”( 定 中 式 ) ， 还 可 以 解释 为 “ 按 条 件 来 转移 指 
4 GRP) ， 是 同 焦 歧 义 结构 。“ 光 学 /字符 识别 ?的 字面 含义 ， 可 
以 解释 为 “光学 的 字符 识别 ”( 定 中 式 ) ， 也 可 以 解释 为 “ 按 光 学 的 方式 
来 进行 字符 识别 ”( 状 中 式 ) ， 但 主 谓 式 的 洪 在 卜 义 消失 了 。 


(3) NVP+NV: 例如 , “组 传输 /结束 ”的 字面 含义 ， 可 以 解释 
为 “组 传输 被 结束 了 ”( 主 谓 式 ,“ 组 传输 ”是 施 事 ) ， 也 可 以 解释 为 “组 
传输 的 结束 ”( 定 中 式 ) ， 还 可 以 解释 为 “ 按 组 传输 的 方式 结束 ”( 状 中 
式 ) ， 是 同 焦 歧 义 结构 。“ 多 数 决 定 /运算 ”的 字面 含义 ， 可 以 解释 
为 “多 数 决 定 的 运算 ”( 定 中 式 ) ， 也 可 以 解释 为 " 按 多 数 决定 的 方式 来 
运算 ”( 状 中 式 ) ,但 主 请 式 的 潜在 歧义 消失 了 。 


九 、 述 宾 一 定 中 一 状 中 歧义 : 下面 的 PT- 结 构 会 产生 壕 宾 一 定 中 
一 状 中 歧义 。 


(1) V+NV: 例如 , “延迟 / 编 址 ”的 字面 含义 ， 可 以 解释 为 “延迟 
这 种 编 址 ”( 壕 宾 式 ) ， 也 可 以 解释 为 “延迟 的 编 址 ”( 定 中 式 ) ， 还 可 
以 解释 为 “ 按 延 迟 的 方式 来 编 址 ”〈 状 中 式 ) ， 其 中 ， 定 中 式 和 状 中 式 
征 后 焦 型 结构 ， 述 宾 式 是 前 焦 型 结构 ， 因 此 ， 这 是 一 种 异 焦 时 义 结 
构 。* 和 迭代 /运算 ”的 字面 含义 ， 可 以 解释 为 “迭代 的 运算 ”(〈 定 中 式 ) ， 
也 可 以 解释 为 “ 按 迭 代 的 方式 来 运算 ”\ 状 中 式 ) ， 但 述 宾 式 的 洪 在 层 
ABA TD ° 


(2 AV+NV: P, “重复 /运算 ”的 字面 含义 ， 可 以 解释 为 “重复 
这 种 运算 ”( 壕 宾 式 ) ， 也 可 以 解释 为 "重复 的 运算 ”〈 定 中 式 ) ， 还 可 
以 解释 为 “ 按 重 复 的 方式 来 运算 ”( 状 中 式 ) ， 这 是 一 种 异 焦 歧 义 结 
构 ， 潜 在 歧义 都 转化 为 现实 的 歧义 。 


(3) V+NVP: 例如 , “链接 /编辑 程序 ”的 字面 含义 ， 可 以 解释 
为 “链接 这 种 编辑 程序 ”( 述 宾 式 ) ， 也 可 以 解释 为 “链接 的 编辑 程 
F” (EPR) ， 还 可 以 解释 为 “ 按 链接 的 方式 来 编辑 程序 ”( 状 中 
式 ) ， 这 是 一 种 异 焦 歧义 结构 ， 潜 在 歧义 都 转化 成 了 现实 的 歧义 。 


(4) AV+NVP: 例如 ,， “集中 /数据 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “集中 这 种 数据 处 理 ”( 述 宾 式 ) ， 也 可 以 解释 为 “集中 的 数据 处 
Bi" GREP SL) ， 还 可 以 解释 为 “ 按 集 中 的 方式 \ 进 行 数据 处 理 ”( 状 中 
X) ， 这 是 一 种 异 焦 卜 义 结构 ， 潜 在 上 收 义 转化 成 了 现实 的 歧义 。 


十 、 联 谓 一 状 中 一 述 宾 一 述 补 歧义 : 仅 有 V+V 这 种 PT- 结 构 存 
在 “ 联 谓 一 状 中 一 述 宾 一 述 补 玻 义 ”。 例 如 , “改变 / 转 储 ”的 字面 含义 ， 
可 以 解释 为 “ 按 改 变 的 方式 进行 转 储 ”( 状 中 式 ) ， 也 可 以 解释 为 “改变 
这 种 转 储 ”( 壕 宾 式 ) ， 是 状 中 一 述 宾 的 歧义 结构 。“ 译 / 印 ” 的 字面 含 
义 只 可 以 解释 为 "又 译 又 印 ?或 “ 译 而 且 印 ”， 有 征 联 谓 式 结 构 。* 读 /出 ?的 


字面 信义 ， 只 可 以 解释 为 “ 读 得 出 来 "”， 是 述 补 式 结构 。 这 样 ，V+V 这 
个 PT- 结 构 殴 具有 了 联 谓 一 状 中 一 述 宾 一 述 补 的 光 在 玻 义 ， 这 征 异 焦 
结构 ， 这 种 潜在 歧义 ， 在 具体 的 词组 型 术语 中 ， 有 的 保持 了 一 部 分 ， 
有 的 消失 了 。 


十 一 、 联 请 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 请 歧义 : 仅 有 NV+NV 
这 种 PT- 结 构 存 在 联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 请 歧义 。 例 
如 , “输出 输入 ”的 字面 含义 ， 可 以 解释 为 “输出 并 且 输 入 ”(〈 联 谓 
X) ， 又 可 以 解释 为 “输出 和 输入 ”《\ 联 体式 ) ， 有 是 联 谓 一 联 体 的 歧义 
结构 。“ 控 制 /操作 ”的 字面 含义 ， 可 以 解释 为 “控制 这 种 操作 ”《\ 述 宾 
A) ， 又 可 以 解释 为 “控制 的 操作 ”〈 定 中 式 ) 是 述 宾 一 定 中 歧义 结 
构 。“ 存 储 /分 配 * 的 字面 含义 ， 可 以 解释 为 “存储 的 分 配 ”( 定 中 式 ) ， 
又 可 以 解释 为 “ 按 存储 的 方式 来 分 配 ”( 状 中 式 ) ， 还 可 以 解释 为 “存储 
OMT” (EER, “存储 "是 受 事 ) ， 是 定 中 一 状 中 一 主 谓 的 此 义 结 
构 。 这 样 ，NV+NV 这 个 PT- 结 构 束 具有 了 联 请 一 联 体 一 述 宾 一 定 中 一 
状 中 一 主 请 潜在 收 义 ， 这 是 异 焦 上层 义 结构 。 


汉语 术语 中 的 潜在 卜 义 结构 可 总 结 如 下 : 


潜在 歧义 结构 的 类 型 PT- 结 构 
述 宾 一 定 中 屋 义 V+N 
jt FR— FE FP SL V+NQA 
jae FR — FE FP Y. AV+N 
jt FR— FE FP SL AV+NP 


ult FE — FE FA IB SL NV+N 


ETA IBC 
ETA IBC 
ETA IBC 
ETA IBS 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
定 中 一 状 中 歧义 
FE PTR PIB SL 
定 中 一 状 中 歧义 


VP+N 
NVP+N 
V+NP 
NV+NP 
NV+NVP 
NVP+NP 
N+V 
C+V 
N+VP 
C+NV 
QA+NV 
NA+NV 
A+NV 
AD+NV 
VP+NV 
QA+NVP 
AV+NVP 
AP+NV 


VQA+NV 


XE ATR BIE SL VP+NVP 


JL EE —3ÀÀ PIE SC V+VP 
EVE AB XC NP+NV 
FETE rust XC NP+NVP 
联 体 一 定 中 歧义 N+N 
GE MAR PIL VP+VP 
主 谓 一 定 中 一 状 中 歧义 N+NV 
FEV aE PTR AB SC N+NVP 
FETE PTA I XC NVP+NV 
XL FR— FE PTR IB SL V+NV 
XL FR— FE PTR I SL AV+NV 
述 宾 一 定 中 一 状 中 歧义 V+NVP 
述 宾 一 定 中 一 状 中 攻 义 AV+NVP 
联 谓 一 状 中 一 述 宾 一 述 补 歧义 V+V 


联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 谓 层 义 NV+NV 


潜在 歧义 是 由 于 汉语 术语 的 PIT- 结 构 与 FS- 结 构 之 间 不 存在 一 一 对 
应 关系 而 产生 的 ， 而 这 种 不 一 一 对 应 的 情况 ， 正 是 汉语 语法 的 真正 特 
点 之 所 在 。 朱 德 钻 在 《语法 答 问 》 一 书 中 谈 到 汉语 语法 的 “真正 的 特 
点 ”时 指出 : 汉语 语法 的 特点 , “要 是 细 大 不 捐 的 话 ， 可 以 举 出 许多 条 


来 。 要 是 拣 关 系 全 局 的 重要 方面 来 说 ， 主 要 只 有 两 条 。 一 条 是 汉语 词 
类 跟 句 法 成 分 (就 是 通常 所 说 的 句子 成 分 | 之 间 不 存在 一 一 对 应 关 
FR; 二 是 汉语 句子 的 构造 原则 跟 词 组 的 构造 原则 基本 上 是 一 致 的 ”。 朱 
德 巾 这 里 所 说 的 汉语 语法 的 第 一 个 真正 的 特点 ， 即 “汉语 词类 跟 句 法 成 
分 之 则 不 存在 一 一 对 应 关系”， 束 是 汉语 术语 中 存在 潜在 歧义 的 根本 原 
因 。 正 因为 这 是 汉语 语法 的 真正 特点 ， 所 以 ，“ 潜 在 歧义 论 ” 的 研究 ， 
忠 必 定 是 汉语 术语 结构 分 析 的 关键 之 所 在 ， 在 汉语 的 目 然 语言 计算 机 
处 理 中 ， 这 是 我 们 必须 加 以 认真 研究 的 问题 ， 决 不 能 对 这 个 问题 掉 以 
轻 心 。 朱 人 德 昭 指 出 的 汉语 语法 的 第 二 个 真正 的 特点 ， 即 “汉语 句子 的 构 
造 原 则 跟 词组 的 构造 原则 基本 上 有 是 一 致 的 ”， 对 于 汉语 词组 型 术语 的 结 
构 研 究 也 有 指导 意义 。 因 为 这 个 特点 意味 着 ， 汉 语词 组 型 术语 的 结构 
研究 ， 将 会 大 大 有 助 于 汉语 句子 结构 的 研究 ， 以 汉语 词组 型 术语 结构 
的 目 动 分 析 为 目的 而 提出 的 “潜在 下 义 论 ”， 将 有 可 能 在 汉语 句子 结构 
的 目 动 分 析 中 大 显 身 手 。 


潜在 歧义 结构 反映 的 是 PT- 结 构 的 潜在 歧义 。PT- 结 构 症 由 词组 类 
型 标记 和 词类 标记 构成 的 ， 这 些 标记 是 “类 ”的 标记 ， 而 不 是 具体 的 单 
词 的 标记 ， 因 而 PT- 结 构 并 不 是 由 具体 的 词汇 单元 构成 的 术语 的 结 
构 ， 而 是 “类 ”的 结构 ， 这 种 “类 ”的 结构 所 反映 出 来 的 歧义 ， 并 不 是 现 
实 的 歧义 ， 而 只 是 潜在 的 上 收 义 。 要 想 了 解 这 种 次 在 的 收 义 是 否 具有 现 
实 性 ， 只 有 在 PT- 结 构 中 插入 具体 的 词汇 单元 之 后 才 看 得 出 来 ， 也 束 
是 说 ， 词 汇 单元 的 插入 ， 才 把 PT- 结 构 的 谱 在 歧义 激活 了 ， 才 使 PT- 结 
构 的 潜在 歧义 具备 了 转化 为 现实 歧义 的 可 能 性 。 


另外 ，PT- 结 构 仅 只 是 表示 了 词组 型 术语 的 树 形 图 中 ， 同 一 层级 
上 的 两 个 相 邻 的 树 校 结 点 之 间 词 组 类 型 的 结构 ， 并 不 能 反映 多 层级 的 
由 整个 树 形 图 所 代表 的 词组 类 型 结构 ， 而 PT- 结 构 及 其 相应 的 SF- 结 构 


的 非 同 构 情况 反映 出 来 的 PT- 结 构 所 具有 的 潜在 歧义 ， 也 仅 只 反映 了 
树 形 图 中 某 一 层级 上 的 潜在 歧义 ， 并 不 能 代表 整个 树 形 图 的 并 在 歧 
义 ， 要 想 了 解 整个 树 形 图 的 到 义 情况 ， 只 有 在 研究 了 树 形 图 各 个 层级 
上 的 歧义 情况 之 后 才 有 可 能 ， 而 要 想 了 解 树 形 图 各 个 层级 上 的 歧义 情 
况 ， 首 先 必须 插入 词汇 单元 。 


由 此 可 见 ， 词 汇 单 元 的 插入 ， 对 于 词组 型 术语 的 卜 义 研究 来 说 ， 
征 一 个 至 关 重 要 的 问题 。 


PT- 结 构 只 是 一 个 抽象 的 语法 结构 ， 这 样 的 结构 要 靠 词 汇 单元 来 
激活 ，PT- 结 构 被 插入 的 词汇 单元 激活 之 后 ， 便 成 为 了 具有 具体 的 学 
术 人 含义 的 词组 型 术语 ， 这 个 过 程 叫 做 "PT 结构 的 实例 
化 ” (Instanciation of PTStructure) 。 

PT- 结 构 实 例 化 之 后 ， 便 可 以 判断 PT- 结 构 所 具有 的 潜在 必 义 是 不 
是 会 变 为 现实 的 上 改 义 。 也 融 是 说 ， 实 例 化 之 前 的 PT- 结 构 没 有 被 激 
活 ， 只 具有 潜在 的 改 义 ， 而 实例 化 之 后 的 PT- 结 构 被 激活 了 ， 才 可 能 
具有 现实 的 歧义 。 


为 了 研究 具体 的 词组 类 型 术语 是 否 有 此 义 ， 可 分 两 步 来 做 : 


(1) 在 表示 有 关 术 语 的 树 形 图 的 前 终极 结 点 下 方 插入 相应 的 词汇 
单元 ， 使 之 成 为 这 个 树 形 图 的 叶子， 从 而 使 PT- 结 构 实例 化 。 


(2) 从 树 形 图 的 叶子 开始 ， 自 叶 向 根 ， 自 底 向 上 ， 逐 级 研究 各 个 
层级 的 PT- 结 构 潜在 卜 义 情况 ， 观 察 其 是 否 有 可 能 转化 为 现实 的 歧 
义 。 如 果 根 的 两 个 直接 后 窗 结 点 所 形成 的 PT- 结 构 仍 是 有 歧义 的 ， 则 
整个 的 词组 型 术语 束 是 有 歧义 的 ， 这 时 ， 洪 在 的 歧义 结构 也 束 转 化 成 
了 现实 的 歧义 结构 。 


在 PT- 结 构 实 例 化 的 过 程 中 ， 当 把 词汇 单元 插入 树 形 图 时 ， 由 于 
词汇 单元 之 间 词 入 意义 的 制约 ， 或 者 由 于 词汇 单元 语法 结构 的 影响 ， 
PT- 结 构 的 潜在 收 义 有 可 能 消失 ， 也 有 可 能 继续 保持 。 在 由 下 而 上 对 
多 层次 的 树 形 图 中 各 个 层次 上 的 PT- 结 构 进 行 解释 时 ， 由 于 各 个 PT- 结 
构 之 间 上 下 文 环境 的 影响 ，PT- 结 构 所 具有 的 潜在 上 收 义 也 会 发 生 一 些 
新 的 变化 。 总 而 言 之 ， 词 汇 单元 的 插入 ， 把 抽象 的 PT- 结 构 激活 了 ， 
这 样 ，PT- 结 构 实例 化 的 过 程 中 ， 可 以 产生 四 种 不 同 的 树 形 结构 : 无 
卜 义 结构 ， 歧 义 消除 结构 ， 上 到 义 结 构 ， 非 法 结构 。 因 此 ， 这 四 种 树 形 
结构 才 是 反映 具体 的 词组 型 术语 收 义 情况 结构 。 其 中 ， 无 歧义 结构 是 
由 无 歧义 的 PT- 结 构 实 例 化 之 后 形成 的 ， 而 歧义 结构 和 由 义 消 除 结构 
则 是 由 有 具有 半 在 歧义 的 PT- 结 构 实 例 化 之 后 形成 的 ， 非 法 结构 的 PT- 结 
构 本 号 殉 是 不 合乎 其 含义 或 者 语法 规则 的 ， 这 种 PT- 绪 构 不 论 实例 化 
JG, abestFHy ° 


下 面 ， 我 们 来 讨论 这 四 种 不 同 的 树 形 结构 e 
(1) 无 歧义 结构 (unambiguous structure) 


无 上 收 义 结构 中 ， 表 示 词 组 类 型 术语 的 树 形 图 中 的 任何 PT- 结 构 均 
不 古 潜在 歧义 结构 ， 决 无 产生 疏 义 之 可 能 ， 因 而 实例 化 之 后 形成 的 结 
构 也 是 没有 歧义 的 。 


例如 , “大 容量 存储 器 ”这 个 术语 ， 在 插入 词汇 单元 之 后 ， 其 树 形 
图 为 : 


大 容量 


图 5.10 ”无 歧义 结构 


自 下 而 上 观察 ，A+N 是 一 个 无 歧义 的 PT- 结构 ， 根 结 点 NP 两 个 直 
接 后 裔 形成 的 NP+N 也 是 一 个 无 歧义 结构 ， 所 以 ， 这 个 术语 是 一 个 无 
歧义 结构 。 


(2) 歧义 消除 结构 (ambiguity-disappeared structure) 


表示 词组 类 型 术语 的 树 形 图 中 ， 有 的 PT- 结 构 古 潜在 上 收 义 结构 ， 
但 是 在 这 些 PT- 结 构 的 实例 化 过 程 中 ， 在 插入 词汇 单元 之 后 ， 由 于 词 
汇 单元 词汇 意义 的 制约 ， 或 者 由 于 各 个 词汇 单元 的 语法 特性 的 相互 影 
啊 ， 排 除了 牙 义 之 可 能 ， 皮 义 请 除 ， 形 成 一 个 歧义 消除 结构 。 


例如 , “面向 问题 语言 "这 个 术语 ， 播 入 词汇 单元 之 后 ， 其 树 形 图 


”> w, 
AN | 
| | 


ÉH] 问题 


图 5.11 ”上 收 义 消除 结构 


自 下 而 上 观察 ，V+N 这 个 PT- 结 构 有 “ 述 宾 一 定 中 歧义 ”， 是 一 个 
潜在 歧义 结构 ， 但 插入 了 “面向 ”、“ 问 题 "等 词汇 单元 之 后 ， 由 于 词汇 
意义 的 制约 ,“ 面 向 * 不 可 能 作 "问题 "的 定语 ， 排 除了 定 中 式 之 可 能 
VP+N 这 个 PT- 结 构 有 “ 壕 宾 一 定 中 歧义 *， 也 是 一 个 潜在 歧义 结构 ， 但 
由 于 在 VP 中 ， 动 词 V 已 带 有 宾语 “问题 "， 一 般 不 能 再 带 第 二 个 宾语 ， 
这 种 语法 性 质 的 影响 ， 排 除了 述 宾 式 之 可 能 ， 根 结 点 NP 的 两 个 直接 后 
育 VP 和 N 形 成 的 定 中 式 结构 ， 是 一 个 歧义 消除 结构 ， 这 时 ， 在 树 形 图 
两 个 层级 上 的 PT- 结 构 所 具有 的 潜在 歧义 并 未 转化 为 现实 的 歧义 结 
构 。 


(3) 歧义 结构 (ambiguous structure) 


And A A TE A, BA PT eS EI I, 
在 PIT- 结构 的 实例 化 过 程 中 ， 插 入 词汇 单元 之 后 ， 词 汇 单元 之 间 的 词 


汇 意 义 的 制约 以 及 词汇 单元 语法 功能 的 影响 ， 并 不 足以 消除 这 种 潜在 
歧义 ， 从 而 使 这 种 洪 在 歧义 转化 为 现实 的 歧义 。 在 自 下 而 上 地 解释 树 
形 图 的 卜 义 时 ， 如 果 根 结 点 的 两 个 直接 后 窗 组 成 的 PT- 结 构 的 潜在 歧 
义 仍 未 完全 消除 ， 那 么 ， 束 可 能 形成 一 个 歧义 消除 结构 。 


当然 ， 在 多 层次 的 树 形 图 中 ， 除 了 根 结 点 的 两 个 直接 后 裔 之 外 的 
其 他 下 层 结 点 的 语法 和 语义 信息 ， 对 于 根 结 点 的 歧义 也 是 有 影响 的 ， 
不 过 ， 这 种 彼此 影响 的 情况 是 十 分 复 洒 的 ， 目 前 ， 在 我 国 目 然 语 言 处 
理 研 究 中 ， 这 个 问题 尚未 得 到 细致 的 考察 ， 而 且 ， 一 般 说 来 ， 根 结 点 
的 歧义 情况 主要 应 该 由 它 的 两 个 直接 后 裔 组 成 的 PIT- 结构 来 决定 ， 下 
层 结 点 的 语法 和 语义 信息 不 可 能 使 其 基本 含义 发 生 改 变 ， 因 而 可 以 暂 
时 不 考虑 这 些 信息 对 根 结 点 的 歧义 的 影响 。 
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直接 


例如 , “直接 插入 子 程序 ”这 个 术语 ， 插 入 词汇 单元 之 后 ， 其 树 形 
AN: 


子 程序 


图 5.12 ”歧义 结构 


目下 而 上 观察 ,“A+V” 这 个 PT- 结 构 是 一 个 无 歧义 结构 ， 但 根 结 
点 NVP 的 两 个 直接 后 裔 VP 和 N 构 成 的 PT- 结 构 VP+N 却 是 一 个 潜在 牙 义 
结构 ， 存 在 述 宾 一 定 中 攻 义 ， 而 词汇 单元 的 词汇 意义 的 制约 以 及 语法 
功能 的 影响 ， 都 不 能 排除 这 种 玻 义 ， 于 是 ， 光 在 的 政 义 转化 为 现实 的 
攻 义 ， 形 成 一 个 述 宾 一 定 中 攻 义 结构 。 这 个 术语 ， 可 以 解释 为 < 直接 插 
入 一 个 子 程序 ”〈 述 宾 式 ) ， 也 可 以 解释 为 直接 插入 的 子 程序 ”〈 定 中 
I 


值得 注意 的 是 ， 我 们 所 说 的 “潜在 歧义 ”"， 仪 只 是 句法 功能 方面 的 
攻 义 ， 而 不 是 逻辑 语义 方面 的 歧义 。 不 过 ， 句 法 功能 与 逻辑 语义 是 有 
联系 的 。 句 法 功能 歧义 有 时 会 导致 逻辑 语义 蚊 义 ， 从 而 使 术语 的 字面 
含义 发 生 改 变 。 上 例 “ 直 接 插 入 子 程序 ”这 个 术语 的 “ 述 宾 一 定 中 ”这 种 
句法 功能 歧义 ， 导 臻 了 逻辑 语义 卜 义 ， 因 为 它 具 有 的 两 种 不 同 的 解 
释 ， 其 字面 意义 古 根 本 不 同 的 。 然 而 ， 人 句法 功能 卜 义 并 不 一 定 尽 古 导 
臻 逻辑 语义 的 歧义 。 有 了 时， 一 个 术语 虽然 在 句法 功能 上 是 有 上 收 义 的 ， 
但 是 ， 术 语 的 字面 意义 并 未 改变 ， 


QA NVP 
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数据 处 理 


图 5.13” 准 歧义 结构 


并 未 引起 逻辑 语义 歧义 。 例 如 ,，“ 目 动 数 据 处 理 ” 这 个 术语 ， 插 入 
词汇 单元 并 且 实 例 化 之 后 ， 其 树 形 图 为 : 


自 下 而 上 观察 ，N+NV 这 个 PT- 结 构 有 “ 主 谓 一 定 中 一 状 中 歧义 ”， 

是 一 个 潜在 歧义 结构 ， 由 于 词汇 单元 的 词汇 意义 的 制约 和 语法 功能 的 
影响 , “数据 ?不 可 能 做 “处 理 ” 的 状语 ， 排 除了 状 中 式 之 可 能 ， 但 仍 保 
留 了 “ 主 谓 一 定 中 歧义 >;， 根 结 点 NVP 的 两 个 直接 后 裔 QA 和 NVP 形 成 的 
QA+NVP 这 个 PT- 结 构 有 “ 定 中 一 状 中 歧义 ”， 这 种 歧义 并 未 因为 词汇 
意义 的 制约 和 词汇 单元 语法 特性 的 影响 而 消除 ， 最 后 形成 一 个 定 中 一 
状 中 式 的 现实 的 歧义 结构 。 这 个 术语 可 以 解释 为 “自动 的 数据 处 
E GEP) ， 也 可 以 解释 为 “自动 地 进行 数据 处 理 ”( 状 中 式 ) ， 其 
句法 功能 是 有 上 收 义 的 ， 但 是 ， 这 种 句法 功能 歧义 并 未 引起 这 个 术语 字 
面 意义 的 改变 ， 并 未 导致 逻辑 语义 的 歧义 。 


为 了 区 别 这 两 种 不 同 的 歧义 结构 ， 我 们 把 由 于 句法 功能 歧义 而 导 
致 术语 基本 字面 意义 不 同 的 歧义 结构 叫做 “ 真 收 义 结构 ”"， 而 把 句法 功 
能 歧义 不 导致 术语 基本 字面 意义 不 同 的 歧义 结构 叫做 “ 准 玻 义 结构 ”。 


这 样 ， 我 们 便 可 以 根据 术语 的 句法 功能 歧义 是 否 导致 术语 基本 字 
面 含义 的 不 同 ， 把 术语 的 歧义 结构 分 为 真 歧义 结构 和 准 层 义 结构 两 
种 。 这 种 区 分 有 着实 用 意义 。 因 为 在 术语 工作 的 实践 中 ， 必 须 特别 注 
意 由 于 句法 功能 卜 义 而 导致 术语 字面 合 义 不 同 的 那些 真 上 疏 义 结构 。 


但 是 , “导致 术语 基本 字面 侣 义 的 不 同 ” 这 个 区 分 标准 是 比较 空灵 
的 ， 不 易 掌 握 ， 用 起 来 见仁见智 ， 因 人 而 异 。 我 们 能 人 否 为 这 个 区 分 标 
准 找 到 一 个 比较 可 靠 的 形式 标准 呢 ? 回答 是 肯定 的 。 这 个 形式 标准 ， 
忠 是 看 卜 义 术语 的 根 结 点 的 两 个 直接 后 座 组 成 的 PT- 结 构 在 实例 化 之 
后 征 同 焦 结 构 还 是 异 焦 结 构 ， 如 采 是 同 焦 结 构 ， 那 么 ， 该 攻 义 术语 的 
结构 就 是 准 政 义 结构 ， 如 果 是 异 焦 结构 ， 那 么 ， 该 旷 义 术语 的 结构 就 
EREE 。 


由 于 同 焦 与 异 焦 的 区 别 是 由 汉语 术语 的 句法 功能 结构 中 的 功能 焦 
点 的 位 置 来 决定 的 ， 所 以 ， 功 能 焦点 的 位 置 对 于 汉语 术语 的 歧义 的 研 
穴 ， 起 着 决定 性 的 作用 。 我 们 对 此 必须 给 以 足够 的 重视 。 功 能 焦点 的 
位 置 对 于 汉语 术语 的 歧义 具有 举足轻重 的 影响 ， 这 是 汉语 术语 结构 的 
重要 特点 之 一 。 


从 实用 的 观点 来 看 ， 对 于 牙 义 结构 的 限制 应 该 严格 一 些 ， 而 对 于 
靶 义 消除 结构 的 限制 可 以 宽 一 些 。 这 样 ， 在 进行 术语 的 研究 和 规范 化 
时 ， 婚 可 以 把 注意 力 集中 于 那些 最 容易 引起 此 义 的 问题 上 去 。 为 此 我 
们 规定 : 


1. 只 有 当 根 结 点 的 两 个 直接 后 座 形 成 的 PT- 结 构 是 收 义 结构 时 ， 
整个 术语 的 结构 才 算 攻 义 结构 。 如 采 根 结 点 的 两 个 直接 后 裔 形成 的 
PT- 结 构 不 是 卜 义 结构 ， 尽 管 在 树 形 图 的 下 层 结 点 中 存在 收 义 结构 ， 
整个 术语 也 不 算 卜 义 结构 。 


2. 当 根 结 点 的 两 个 直接 后 裔 形成 的 PIT- 结构 生 靶 义 消 除 结构 时 ， 
整个 术语 当然 要 算 皮 义 消除 结构 。 但 是 ， 除 此 之 外 ， 如 果 根 结 点 的 两 
个 直接 后 裔 形成 的 PT- 结 构 是 无 发 义 结构 ， 只 要 在 下 层 结 点 中 还 存在 
着 歧义 消除 结构 ， 整 个 术语 也 算 歧 义 消除 结构 。 


(4) 非法 结构 (illegal structure) 


WARN BUE TRU MCN SRE AEA I, WWE 
METERT o SEAM ADA ao HO, “区 段 罕 孔 ”这 
个 术语 其 学 术 舍 义 是 表示 "在 十 二 行 未 穿孔 卡片 上 部 三 行 中 的 一 行内 所 
穿 的 孔 ”， 显 然 是 指 一 个 “ 孔 ”， 而 不 是 穿孔 的 动作 。 从 其 学 术 舍 义 来 
看 ， 这 个 术语 应 该 是 一 个 名 词 词组 。 但 这 个 术语 的 结构 却 生 NtV， 在 
汉语 中 ，N+V 这 种 结构 是 永远 也 不 会 形成 一 个 名 词 词组 的 ， 它 违反 了 
汉语 语法 结构 的 基本 规则 ， 术 语 的 字面 含义 与 学 术 含 义 发 生 了 矛盾 ， 
故 古 一 个 非法 结构 ， 应 该 重新 命名 。 


术语 的 PIT- 结构 与 SF- 结 构 的 非 同 构 现象 引起 的 歧义 ， 仅 只 是 术语 
结构 的 代数 值 方 面 的 收 义 ， 因 为 这 种 收 义 ， 只 牵涉 到 表示 术语 结构 的 
树 形 图 中 的 同一 层级 上 两 个 结 点 的 代数 标记 ， 并 不 涉及 树 形 图 的 几何 
形状 问题 。 


控制 ”NV 


转移 指令 


图 5.14 ME 


PR 


但 是 ， 任 何 一 个 术语 的 线性 符号 串 都 隐藏 着 一 个 多 层次 的 树 形 
o 这 种 树 形 图 不 仅 有 代数 标记 ， 而 且 还 有 几何 形状 。 树 形 图 的 几何 
形状 也 会 影响 到 术语 的 字面 售 义 。 


例如 ,“ 挥 制 /转移 /指令 ”这 个 术语 ， 其 树 形 图 可 以 为 


这 时 ， 有 代数 歧义 。 因 为 可 有 述 宾 转 换 鉴 定式 : 
控制 /转移 指令 一 控制 (这 种 ) 转移 指令 
其 字面 含义 古 :“ 控 制 某 种 转移 指令”。 
还 可 有 定 中 转换 鉴定 式 : 
控制 /转移 指令 一 控制 (的) 转移 指令 


其 字面 含义 是 : “具有 控制 能 力 的 转移 指令 "。 
因此 ， 这 个 术语 有 壕 宾 一 定 中 歧义 。 这 是 一 种 代数 歧义 。 


同时 ， 这 个 术语 还 有 几何 卜 义 ， 因 为 它 还 隐藏 着 男 一 个 树 形 图 : 


NVP 
> E 
NVP N 
"di" 
NV NV 指令 


控制 转移 


E515 WER 


这 个 表示 为 这 种 几何 形式 的 树 形 图 的 术语 也 有 代数 歧义 。 因 为 它 
可 有 述 宾 转换 鉴定 式 : 


控制 转移 /指令 一 控制 转移 (这 种 ) 指令 


HERO LE: “控制 并 且 转 移 某 种 指令 "。 
还 可 有 定 中 转换 鉴定 式 , 
控制 转移 /指令 一 控制 转移 (的 ) 指令 


其 字面 含义 是 : “具有 控制 和 转移 能 力 的 指令 "。 


可 以 看 出 ， 术 语 的 几何 疏 义 ， 对 于 术语 的 字面 含义 也 是 有 影响 
的 。 在 术语 收 义 问题 的 研究 中 ， 也 要 注意 由 于 构成 术语 的 各 个 单词 的 
几何 层次 不 同 而 导致 的 几何 歧义 。 


术语 的 几何 歧义 古 由 上 下 文 无 关 的 短语 结构 语法 本 里 固有 的 歧义 
造成 的 。 


一 般 说 来 ， 在 用 上 下 文 无 关 的 短语 结构 语法 来 生成 术语 的 过 程 
中 ， 如 果 对 语法 中 的 重 写 规 则 的 使 用 顺序 不 一 样 ， 殊 会 造成 几何 歧 
Yo 


例如 ， 对 于 “控制 /转移 /指令 ?这 个 术语 ， 可 用 如 下 的 上 下 文 无 关 的 
短语 结构 语法 的 重 写 规 则 来 生成 : 


NVP — NV NVP ...... (1) 
NVP— NVN ies (2) 
NVP— NVPN ...... (3) 
NVP => NV NV ...... (4) 


如 采 重 写 规则 的 使 用 顺序 是 : 


NVP 
NV NVP...... (1) 
NV NV N...... (2) 


则 可 得 到 第 一 个 树 形 图 。 


如 果 重 写 规则 的 使 用 顺序 是 : 


NV NV N ...... (4) 


则 可 得 到 第 二 个 树 形 图 。 


术语 的 几何 层 义 也 十 很 重要 的 ， 我 们 在 研究 术语 的 代数 玻 义 的 同 
时 ， 也 不 能 忽视 术语 的 几何 歧义 。 


术语 树 形 图 中 各 个 结 点 之 间 可 以 相互 影响 。 有 时 这 种 相互 的 影响 
有 助 于 判别 术语 的 代数 歧义 。 


我 们 经 初步 的 研究 发 现 有 如 下 的 规律 : 


1. 如 果 某 一 层级 上 的 PT 结构 是 VP+N， 而 动词 词组 VP 本 身 的 PT- 
结构 是 V+N， 其 SF- 结 构 是 述 宾 式 ， 那 么 ，PT- 结 构 VP+N 中 的 N 决 不 
能 是 VP 的 宾语 ， 这 个 PT- 结构 WP+N 的 SF- 结构 决 不 能 是 述 宾 式 。 


V N 语言 


ÉH] 过 程 


图 5.16” 树 形 图 


例如 , “面向 /过 程 /语言 ”这 个 术语 的 树 形 图 如 下 : 


在 这 个 树 形 图 中 ,“ 面 向 /过 程 * 这 个 VP 的 SF- 结 构 已 经 是 述 宾 式 ， 
其 中 的 动词 V 已 经 有 宾语 ， 因 此 ,“ 语 言 ”这 个 名 词 N 束 不 能 是 动词 词组 
VP 的 宾语 。 


2. 如 果菜 一 层级 上 的 PT- 结 构 是 QA+NVP， 而 其 中 NVP 的 PT- 结 构 
是 NV+N， 那 么 ， 结 点 QA 将 使 NVP 中 的 名 动 同形 词 NV 失 去 动词 特 
性 ， 使 得 NVP 的 SF- 结 构 不 可 能 是 述 宾 式 。 


图 5.17 树 形 
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例如 ,，“ 宏 /生成 /程序 ”这 个 术语 的 树 形 图 如 下 : 


在 这 个 树 形 图 中 ,“ 生 成 /程序 ”这 个 PT- 结 构 由 NV+N 组 成 ， 其 SF- 
结构 存在 着 述 宾 一 定 中 卜 义 ,但 由 于 其 前 面 的 “ 宏 * 结 点 是 个 QA， 使 得 
名 动 同形 词 NV 失 去 了 动词 的 特性 ， 排 除了 NV+N 的 SEF- 结构 为 述 宾 式 
之 可 能 。 


树 形 图 中 各 个 结 点 的 这 种 相互 制约 相互 依存 的 关系， 对 于 术语 卜 
义 的 研究 有 很 大 参考 价值 。 


PT- 结 构 为 NV+N 的 词组 型 术语 ， 其 句法 功能 结构 有 的 为 真 歧 义 结 
构 ， 有 的 为 歧义 消除 结构 ， 但 是 没有 为 准 歧义 结构 的 。 在 我 国学 者 设 
计 的 中 文 术 语 数 据 库 GLOT-C 中 ，PT- 结 构 为 NV+N 的 词组 型 术语 有 143 


个 ， 基 中， 歧义 消除 结构 有 110 个 ， 占 76.9%， 真 歧义 结构 有 33 个 ， 占 
23.1%. 如 下 表 所 示 : 


结构 类 型 句法 功能 结构 R 百分比 


歧义 消除 结构 | 定 中 式 | 76.9% 

真 歧 义 结构 VB Se — FE IE Y. 3 23.1% 
例如 , “模拟 /程序 ”这 个 词组 型 术语 ， 其 PT- 结 构 为 NV+N， 实 例 
化 之 后 具有 壕 宾 一 定 中 歧义 ， 是 真 歧义 结构 。PT- 结 构 为 NV+N 的 具有 
述 宾 一 定 中 此 义 的 词组 类 型 术语 还 有 : “生成 /机 数 ， 组 合 /电路 ， 记 忆 / 
符号 ， 控 制 /功能 ， 控 制 /字符 ， 承 认 / 字 符 ， 否 认 / 字 符 ， 移 入 /字符 ， 移 
出 /字符 ， 取 代 / 字 符 ， 删 除 /字符 ， 探 除 /字符 ， 模 拟 /数据 ， 输 入 / 数 


据 ， 输 出 /数据 ， 输 出 /过 程 ， 传 送 /过 程 ， 翻 译 / 程 序 ， 解 释 / 程 序 ， 调 
用 /程序 ， 检 验 / 程 序 ， 编 译 /程序 ， 转 移 /指令 ， 生 成 /地 址 ， 合 成 /地 
址 ， 挥 制 /语言 ， 控 制 /计算 如 ， 控 制 /程序 ， 转 移 / 信 息 ， 处 理 / 数 


据 ?” 等 。 


如 采 NV+N 结 构 中 ， 和 名词 N 在 语义 上 不 能 作 名 动 同 形 词 NV 的 宾 
语 ， 那 么 ，NV+N 吕 不 能 为 述 宾 式 ， 这 时 ， 它 的 句法 功能 只 能 为 定 中 
式 ， 成 为 一 个 卜 义 消除 结构 。 例 如 , “开关 /函数 "这 个 术语 ， 名 词 “ 辑 
数 ” 在 语义 上 不 能 作 名 动 同形 词 * 开 关 ” 的 宾语 ， 尺 管 “ 开 关 ” 有 及 物性 ， 
但 它 的 宾语 不 能 为 “函数 ”"， 因 此 ,“ 开 关 / 表 数 ”只 能 解释 为 定 中 式 ， 排 
除了 述 宾 式 之 可 能 。 


如 采 NV+N 结 构 中 ， 名 动 同 形 词 NV 是 不 及 物 的 ， 这 样 ，NV 后 面 
的 N 就 不 可 能 为 它 的 宾语 ， 这 时 ，NV+N 的 句法 功能 只 能 是 定 中 式 ， 成 
为 一 个 歧义 消除 结构 。 例 如 ,“ 退 格 / 字 符 ” 这 个 述 语 ， 名 动 同形 词 “ 退 
格 ” 是 不 及 物 的， 名 词 “字符 ”不 能 作 它 的 宾语 ， 这 个 术语 只 能 解释 为 定 


中 式 ， 排 除了 壕 宾 式 之 可 能 。 在 很 多 情况 下 ， 当 名 动 同形 词 NV 的 构 词 
方式 是 述 宾 型 的 ， 即 前 一 语素 表示 动作 、 行 为 ， 后 一 语素 表示 这 种 动 
作 、 行 为 所 支配 关 涉 的 事物 ， 那 么 ， 这 个 NV 就 不 能 带 宾语 ，NV+N 的 
句法 功能 就 只 能 是 定 中 式 。 


可 见 ， 当 用 NV+N 这 种 结构 来 命名 术语 时 ， 要 使 其 不 产生 歧义 的 


条 件 是 : 


1. N 在 语义 上 不 能 作 NV 的 宾语 ; 
2. NV 是 不 及 物 的 ， 或 NV 的 构 词 方 式 是 述 宾 型 的 。 


这 就 是 词组 型 术语 NV+N 的 命名 规范 。 


PT- 结 构 为 V+N 的 词组 型 术语 的 句法 功能 结构 可 为 歧义 消除 结 
构 ， 也 可 为 真 歧 义 结构 ， 但 是 不 能 为 准 歧 义 结构 。 在 我 国学 者 设计 的 
中 文 术语 数据 库 GLOT-C 中 ，PT- 结 构 为 V+N 的 词组 型 术语 有 71 个 ， 其 
中 ， 有 62 个 的 句法 功能 结构 是 歧义 消除 结构 ， 占 87.33%， 有 9 个 的 句 
法 功能 结构 是 真 歧 义 结构 ， 占 12.67%。 在 PT- 结 构 实例 化 之 后 ，V+N 
可 以 为 真 歧 义 结构 或 层 义 消除 结构 ， 但 未 见 有 为 准 歧义 结构 的 。 如 下 
Br: 


结构 类 型 句法 功能 结构 % 百分比 


歧义 消除 结构 定 中 式 78.8796 

歧义 消除 结构 述 宾 式 8.46% 

真 歧义 结构 述 宾 一 定 中 歧义 12. 6796 
例如 , “分割 /字符 ”这 个 术语 ， 其 词组 类 型 结构 是 V+N， 由 于 名 
词 “ 字 符 ” 在 语义 上 可 以 作 动 词 “ 分 割 * 的 宾语 ， 其 句法 功能 可 以 解释 为 
述 宾 式 ， 它 的 含义 是 “分 割 某 个 字符 ”， 表 示 一 种 动作 或 行为 。 但 是 ， 


与 此 同时 ， 由 于 名 词 “ 字 符 ” 在 语义 上 也 可 以 受 动 词 “分 割 * 的 修饰 ， 其 
句法 功能 也 可 以 解释 为 定 中 式 ， 它 的 含义 是 “具有 可 分 割 性 质 的 字 
符 ”， 表 示 一 种 事物 。“ 分 割 /字符 ”这 两 种 不 同 的 解释 是 不 可 兼容 的 ， 
其 学 术 含义 和 字面 含义 都 是 截然 不 同 的 ， 是 一 个 真 歧义 结构 。PT- 结 
构 为 V+N 的 具有 述 宾 一 定 中 歧义 的 词组 型 术语 还 有 : “链接 /程序 ， 触 
发 /电路 ， 预 置 / 人 参数， 监督/ 程序， 引导/ 程序， 分派/ 程序， 闭 入 / 模 


块 "等 。 


如 果 V+N 结 构 中 ， 名 词 N 在 语义 上 不 能 作 动 词 V 的 宾语 ， 那 么 ， 
V+N 就 不 可 能 为 述 宾 式 ， 歧 义 消除 ， 成 为 一 个 定 中 式 的 歧义 消除 结 
构 。 例 如 ， “延迟 /元 件 "这 个 术语 ， 名 词 "元 件 "在 语义 上 不 能 作 动 词 “ 延 
迟 * 的 宾语 ， 排 除了 其 语法 功能 为 述 宾 式 之 可 能 ， 其 中 ，“ 延 迟 "是 定 
语 ,“ 元 件 "是 中 心 语 ， 其 句法 功能 为 定 中 式 。 这 时 ， 尽 管 “延迟 "是 一 
个 及 物 动 词 ， 它 后 面 的 名 词 “ 元 件 "仍然 不 是 它 的 宾语 ， 动 词 “ 延 迟 " 只 
不 过 说 明 名 词 “ 元 件 "的 某 种 性 质 而 已 ， 它 对 于 名 词 “元 件 "并 没有 支配 
作用 。 


如 打 V+N 中 ，V 为 不 及 物 动词 ， 那 么 ， 名 词 N 吕 不 可 能 作 宾 语 ， 排 
除了 述 宾 式 之 可 能 ， 监 义 消 除 ， 成 为 一 个 定 中 式 的 歧义 消 除 结构 。 例 
如 ,“ 示 踩 /程序 ”这 个 术语 ， 动 词 “ 示 踩 " 是 一 个 不 及 物 动词 ， 不 可 能 
市 宾语 ， 排 除了 和 名词“ 元 件 ” 为 宾语 之 可 能 ,“ 示 踩 " 是 定语 , “元件” 是 
中 心 语 ， 其 句法 结构 为 定 中 式 。 这 时 ， 动 词 “ 示 蹊 ” 的 构 词 方式 是 述 宾 
型 的 ， 前 一 语素 “ 示 ” 表 示 某 种 行为 ， 后 一 语素 “ 嫁 ” 表 示 这 种 行为 所 关 
涉 到 的 事物 。 一 般 地 说 ， 按 这 种 构 词 方式 构成 的 动词 大 都 是 不 及 物 
的 ， 因 而 它 后 面 的 名 词 就 不 能 是 它 的 宾语 。 


如 果 V+N 中 ， 动 词 V 在 语义 上 不 能 作 名 词 N 的 定语 ， 那 么 ，V+N 了 就 
不 可 能 为 定 中 式 ， 歧 义 消 除 ， 成 为 一 个 述 宾 式 的 歧义 消除 结构 。 例 


如 ,，“ 取 /比例 尺 * 这 个 术语 中 ， 动 词 “ 取 ”在 语义 上 不 能 作 名 词 “ 比 例 
尺 ” 的 定语 ,，“ 取 ”是 述 语 ,“ 比 例 尺 ”是 宾语 ， 其 句法 功能 为 述 宾 式 。 


可 见 ， 当 用 V+N 这 种 结构 来 给 术语 命名 时 ， 要 使 术语 不 产生 卜 义 


的 条 件 是 : 


1. N 在 语义 上 不 能 作 V 的 宾语 ， 这 时 ， 整 个 术语 为 定 中 式 ; 


2.V 和 是 不 及 物 动词 ， 或 者 V 的 构 词 方式 是 述 宾 型 的 ， 这 时 ， 整 个 术 
语 为 定 中 式 ; 


3.V 在 语义 上 不 能 作 N 的 定语 ， 这 时 ， 整 个 术语 为 述 宾 式 。 


这 束 是 词组 型 术语 V+N 的 命名 规范 。 


可 见 ， 词 组 型 术语 V+N 的 命名 规范 同 词组 型 术语 NV+N 的 命名 规 
范 大 同 小 异 。 


= 语言 中 的 
第 三 六 ”日 前 语言 中 的 潜在 收 义 

潜在 疏 义 论 是 我 们 在 研究 汉语 术语 疏 义 问题 时 提出 来 的 ， 这 种 理 
论 也 同样 适合 于 日 常 的 语言 ， 它 不 仅 适 用 于 汉语 ， 也 适用 于 英语 。 


如 果 我 们 用 并 在 歧义 论 的 观点 来 分 析 前 面 我 们 在 第 一 市 中 提 到 的 
那些 英语 和 汉语 的 卜 义 结构 时 ， 我 们 束 会 得 到 相当 涨 意 的 解释 。 


英语 的 “VP + NP1 + Prep + NP2” 这 个 结构 也 是 一 个 潜在 歧义 结 
构 。 当 这 个 潜在 歧义 结构 实例 化 为 saw a boy with a telescope 时 ， 由 于 
with a telescope 在 语义 上 既 可 作 aboy 的 定语 ， 又 可 作 saw 的 状语 ， 洪 在 


歧义 不 能 消失 ， 于 是 ， 这 个 潜在 卜 义 结构 转化 成 了 现实 的 真 歧 义 结 
构 。 当 这 个 潜在 歧义 结构 实例 化 为 lost the ticket to New York， 由 于 to 
New York 在 语义 上 不 能 作 lost 的 状语 ， 只 能 作 the ticket 的 定语 ， 于 是 ， 
潜在 玫 义 消失 ， 这 个 句子 只 能 解释 为 “丢失 了 到 纽约 的 票 "， 而 不 能 解 
释 为 “到 纽约 丢失 了 票 ?， 变 成 了 一 个 歧义 消除 结构 。 


同样 地 ， 汉 语 中 的 “VP + 的 + 是 + NP” 也 是 一 个 潜在 上 收 义 结构 ， 其 
中 的 “VP + 的 ” 既 可 以 是 施 事 ， 义 可 以 是 受 事 。 当 它 实例 化 为 “看 的 是 病 
人 ”时 ， 潜 在 卜 义 转化 为 现实 的 收 义 ， 得 到 一 个 真 层 义 结构 ， 而 当 它 实 
例 化 为 “发 明 的 是 一 个 工人 ”时 , “发 明 的 ”只 能 是 施 事 ， 湾 在 长 义 消 
失 ， 得 到 了 一 个 歧义 消除 结构 。 


汉语 中 的 “N1 + N2 + N3” 也 是 一 个 潜在 歧义 结构 ， 其 层次 可 以 理 
解 为 ( (N1+N2) +N3) ， 也 可 以 理解 为 (N1+ (N2+N3) ) , 有 
几何 卜 义 。 当 这 些 潜在 歧义 结构 实例 化 为 “台湾 语言 研究 会 时， 可 以 
理解 为 “台湾 语言 的 研究 会 ”， 也 可 以 理解 为 “台湾 的 语言 研究 会 ”， 洪 
在 此 义 转化 为 现实 的 歧义 ， 得 到 一 个 真 歧义 结构 ; 但 是 ， 当 这 个 潜在 
歧义 结构 实例 化 为 “地 名 语源 词典 ”时 ， 潜 在 歧义 消失 ， 成 为 了 歧义 消 
除 结构 。 


汉语 中 的 “ADJ + N1 + N2” 也 是 一 个 潜在 歧义 结构 ， 其 层次 可 以 理 
解 为 ((ADJ+N1) +N2) ， 也 可 以 理解 为 (ADJ+ (N1+N2) ) ， 
有 几何 歧义 。 当 这 个 潜在 歧义 结构 实例 化 为 “小 学 生词 典 * 时 ， 可 以 理 
解 为 “小 学 生 用 的 词典 >?， 也 可 以 理解 为 “小 型 的 学 生词 典 ”， 潜 在 歧义 
转化 为 现实 的 歧义 ， 得 到 一 个 真 歧 义 结构 ， 但 是 ， 当 这 个 潜在 歧义 结 
构 实 例 化 为 “新 英汉 词典 *? 时 ， 潜 在 歧义 消失 ， 成 为 了 歧义 消除 结构 。 


由 此 可 见 ， 潜 在 歧义 是 存在 于 目 然 语言 中 的 一 个 普 裔 现象 ， 它 不 
仅 存 在 于 科技 术语 中 ， 也 存在 于 日 常 语言 中 ， 不 仅 存 在 于 汉语 中 ， 也 
存在 于 英语 等 外 语 中 。 光 在 卜 义 论 加 深 了 我 们 对 于 目 然 语言 同形 歧义 
问题 的 认识 。 


根据 近年 来 学 者 们 的 研究 结果 ， 我 们 把 汉语 中 的 潜在 收 义 结构 举 
例 说 明 如 下 : 


(1) VP +A + = + NP: 


当 实 例 化 为 “援助 /的 /是 /中 国 ” 时 ， 可 以 理解 为 “中 国 援助 了 别 
国 "， 也 可 以 理解 为 “ 别 国 援助 了 中 国 "， 漠 在 歧义 转化 为 现实 的 歧义 。 


但 是 ， 当 实例 化 为 “发 明 / 的 /是 /工人 * 时 ， 潜 在 歧义 消失 。 当 实例 
化 为 “关心 /的 /是 /分 数 ” 时 ， 潜 在 疏 义 也 消失 了 。 


这 种 情况 ， 前 面 已 经 分 析 过 ， 效 不 袭 述 。 
(2) N1 + N2+ N3: 
当 实例 化 “台湾 /语言 /研究 会 时， 潜在 歧义 转化 为 现实 的 歧义 。 
当 实 例 化 为 “地 名 /语源 /词典 * 时 ， 潜 在 歧义 消失 。 
这 种 情况 ， 前 面 也 分 析 过 ， 兹 不 发 述 。 


(3) ADJ +N1+N2: 


当 实 例 化 为 “小 /学 生 / 词 典 * 时 ， 潜 在 卜 义 转化 为 现实 的 歧义 。 


当 实 例 化 为 “新 /英汉 /词典 时， 潜在 卜 义 消失 。 


这 种 情况 ， 前 面 也 分 析 过 ， 效 不 资 述 。 


EM 


(4) 全 部 (部分) + VP + 的 + NP: 


全 部 (部 分 ) 可 以 作为 VP 的 状语 ， 有 可 以 作为 NP 的 定语 ， 从 而 
产生 歧义 。 


当 实 例 化 为 “部 分 /锈蚀 /的 /仪器 * 时 ， 可 以 理解 为 < (部 分 /锈蚀 ) / 
的 /仪器 ”(“ 部 分 ” 作 “ 人 锈蚀” 的 状语 ) ， 也 可 以 理解 为 “部 分 / (锈蚀 /的 / 
Mas) ”性 部分” 作 “锈蚀 的 仪器 "的 定语 ) ， 潜 在 卜 义 转化 为 现实 的 歧 
Ve 


当 实 例 化 为 “部 分 /牺牲 /的 /战士 ?时 ， 只 能 理解 为 "部 分 / (牺牲 /的 / 
AKI) ”(〈“ 部 分 ” 作 “ 牺 牲 的 战士 ”的 定语 ) ， 潜 在 歧义 消失 。 


(5) 数量 结构 + NP1 + 的 + NP2: 


“数量 结构 ”可 以 限定 NP1， 作 NP1 的 定语 ， 又 可 以 限定 “NP1 + 的 + 
NP2”， 作 “NP1 + 的 + NP2” 的 定语 ， 因 而 产生 歧义 。 


当 实 例 化 为 “三 个 /学 校 /的 /实验 员 ” 时 ， 可 以 理解 为 “(三 个 /学 
校 ) /的 /实验 员 ”(“ 三 个 ”限定 “学 校 ”) ， 又 可 以 理解 为 “三 个 / (学 校 / 
的 /实验 员 ) ”(“ 三 个 ”限定 “学 校 的 实验 员 ”) ， 洪 在 歧义 转化 为 现实 的 
BES o 


当 实 例 化 为 “三 所 /学 校 /的 /实验 员 * 时 ， 只 能 理解 为 “(三 所 /学 
Be) /的 /实验 员 ”〈“ 三 所 ”限定 "学校 "， 不 能 限定 “实验 员 ”) ， 洪 在 收 
义 消失 ， 当 实例 化 为 “三 位 /学 校 /的 /实验 员 ” 时 ， 只 能 理解 为 “三 位 / (学 
校 /的 /实验 员 ) ”(“ 三 位 ”限定 “学 校 的 实验 员 *， 不 能 限定 “学 校 ”) ， 
次 在 歧义 消失 。 


(6) VP + 数量 结构 + NP: 


数量 结构 可 以 作 VP 的 补 语 ， 又 可 以 作 NP 的 定语 ， 这 就 产生 了 潜 
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当 实 例 化 为 *( 写 了 /两 天 ) /文章 ”时 (“两 天 ” 作 “ 写 了 ”的 补 语 ， 
但 “两 天 ”不 能 作 “ 文 章 ” 的 定语 ) ， 潜 在 歧义 消失 ， 当 实例 化 为 “ 写 了 / 
(一 篇 /文章 ) ”时 (“一 篇 ”" 作 “文章 ”的 定语 ， 但 “一 篇 ”不 能 作 “ 写 了 ”的 
补 语 ) ， 潜 在 歧义 也 消失 。 


上 面 的 例子 是 改变 数量 结构 中 的 量词 来 消除 履 义 ， 有 时 ， 改 变数 
量 结构 中 的 数 词 也 可 以 消除 歧义 。 例 如 ， 当 实例 化 为 “ 讲 了 /三 年 / 历 
史 ? 时 ,“ 三 年 ?可 以 理解 为 * 讲 了 ”的 补 语 ， 又 可 以 理解 为 "历史 ”的 定 
语 ， 湾 在 歧义 转化 为 现实 长 义 ， 但 是 ， 当 实例 化 为 * 讲 了 /三 千年 / 历 
史 ” 时 ,“ 三 千年 "只 能 作 *“ 历 史 ” 的 定语 ， 不 能 作 * 讲 了 ?的 补 语 ， 洪 在 层 
义 消失 。 


(7) V + ADJ+ N: 


当 实 例 化 为 “ 穿 / 好 /衣服 ”时 ， 可 以 理解 为 *〈 穿 /好 ) DK 
服 ”(“ 好 ” 作 * 穿 ”的 补 语 ) ， 又 可 以 理解 为 “ 穿 / (好 / 衣 
Hi) ”(“ 好 ” 作 “ 衣 服 * 的 定语 ) ， 江 在 歧义 转化 为 现实 的 歧义 。 


当 实 例 化 为 “研究 /清楚 /问题 ?时 ， 只 能 理解 为 “(研究 /清楚 ) / 问 
题 ”(“ 清 楚 ” 只 能 作 “ 研 究 ” 的 补 语 ， 不 能 作 “ 问 题 * 的 定语 )  ， 洪 在 卜 义 


RR; 当 实 例 化 为 “研究 /困难 /问题 ?时 ， 只 能 理解 为 “研究 / 〈 困 难 / 问 
题 ) ”(“ 困 难 ” 只 能 作 “ 问 题 * 的 定语 ， 不 能 作 “ 研 究 ” 的 补 语 ) ， 湾 在 牙 
义 也 消失 。 


(8) V1 + V2 + NP: 


V2 与 V1 可 以 组 成 联合 结构 ， 它 们 共同 的 宾语 是 NP， 但 V2 叉 可 以 
与 NP 组 成 述 宾 结构 ， 作 为 V1 的 宾语 ， 而 且 ，V2 又 可 以 作为 NP 的 定 
语 ， 形 成 偏 正 结构 作 V1 的 宾语 ， 这 就 产生 了 潜在 歧义 。 


当 实例 化 为 “研究 /推广 /新 技术 ”时 ， 可 以 理解 为 ”( 研 究 /推广 ) /新 
技术 ”(“ 新 技术 ” 作 “ 研 究 /推广 ”的 宾语 ) ， 又 可 以 理解 为 “研究 / (推广 / 
新 技术 ) ”(“ 新 技术 ”只 作为 “推广 ”的 宾语 ) ， 潜 在 歧义 部 分 地 转化 为 
现实 的 歧义 。 


当 实例 化 为 继承/ 发展 / 老 传统 "时 ， 只 能 理解 为 " (继承 /发 展 ) / 老 
传统 ”(“ 老 传统 " 作 “ 继 承 /发 展 * 的 共同 宾语 ) ， 潜 在 歧义 消失 ;， 当 实例 
化 为 < 推广 /养殖 /新 技术 "时 ， 只 能 理解 为 < 推广 /， (养殖 /新 技术 ) ” (F 
区 ” 作 “ 新 技术 ”的 定语 “养殖 /新 技术 ”这 一 偏 正 结构 又 作为 “推广 "的 宾 
语 ) ， 潜 在 歧义 也 消失 。 


(9) NP1 + NP2 + VP: 

NP2 可 党 NP1 的 限定 而 与 之 形成 偏 正 结构 ， 作 为 VP 的 主语 ，NP2 
又 可 以 与 VP 形成 主 谓 结构 ， 作 为 NP1 的 谓语 。 这 样 ， 就 产生 了 潜在 歧 
x. o 

当 实 例 化 为 “小 王 / 心 肌 / 发 炎 ? 时 ， 可 以 理解 为 *“ 〈 小 王 /心肌 ) /发 
炎 ”(“ 小 王 / 心 肌 * 组 成 偏 正 结构 作 “ 发 炎 * 的 主语 ) ， 又 可 理解 为 "小 王 / 


(心肌 /发 炎 ) ”(“ 心 肌 / 发 炎 * 这 个 主 谓 结构 作为 小 王 的 谓语 ， 共 同 构 
成 一 个 主 谓 谓 语句 ) ,潜在 疏 义 转变 现实 的 歧义 。 


当 实 例 化 为 “中 国 队 / 冠 军 / 稳 拿 * 时 ， 只 能 理解 为 “中 国 队 / (冠军 / 稳 
拿 ) ”(“ 冠 军 / 稳 拿 * 这 个 主 谓 结构 作 “ 中 国 队 ” 的 谓语 ) ， 洪 在 歧义 消 
失 ; 当 实例 化 为 “词尾 /辅音 / 清 化 ”时 ， 只 能 理解 为 < (词尾 /辅音 ) / 轻 
化 ”(“ 词 尾 /辅音 ”组 成 的 偏 正 结构 作 “ 清 化 ”的 主语 ) ， 漠 在 收 义 消失 。 


(10) N1 + N2: 


N1 可 限定 N2 而 与 之 形成 偏 正 结构 ，N1 叉 可 作为 N2 的 主语 而 与 之 
形成 主 谓 结构 ，N1 与 N2 还 可 形成 联 体 结构 或 者 同位 结构 ， 从 而 产生 多 
种 潜在 歧义 。 这 种 结构 我 们 在 讨论 汉语 词组 型 术语 的 潜在 歧义 时 已 分 
析 过 ， 不 过 ， 在 日 常 汉 语 中 ， 其 潜在 歧义 更 为 丰富 。 


当 实 例 化 为 “牛奶 /面包 ”时 ， 可 以 理解 为 “ 烤 制 时 加 了 牛奶 的 面 
A (WER) ， 又 可 以 理解 为 “牛奶 和 面包 ”( 联 体 结构 ) ， 成 为 现 
实 的 侦 正 一 联 体 皮 义 结构 ， 但 同位 结构 和 主 谓 结构 的 玻 义 消失 。 


当 实例 化 为 "塑料 /玩具 ”时 ， 只 能 理解 为 “塑料 的 玩具 ”( 偏 正 结 
FJ) ， 联 体 、 主 谓 、 同 位 等 潜在 歧义 消失 。 


当 实 例 化 为 “飞机 /大 炮 * 时 ， 只 能 理解 为 “飞机 和 大 炮 ”( 联 体 结 
FJ) ， 偏 正 、 主 谓 、 同 位 等 潜在 歧义 消失 。 


当 实 例 化 为 “今天 /星期 三 "时 ， 只 能 理解 为 “今天 是 星期 三 ”( 主 谓 
结构 ) ， 偏 正 、 联 体 、 同 位 等 潜在 卜 义 消失 。 


当 实 例 化 为 “数学 家 华罗庚” 时 ， 只 能 理解 为 “作为 数学 家 的 华 罗 
庚 ”( 同 位 结构 ) ， 偏 正 、 联 体 、 主 谓 等 潜在 歧义 消失 。 


(11) V+N: 


在 汉语 词组 型 科技 术语 中 ,“V + N?” 可 形成 述 宾 一 定 中 歧义 。 在 日 
常 语言 中 ， 这 种 潜在 歧义 仍然 存在 : V 可 以 作为 N 的 述 语 (NTEX 
语 ) ，V 又 可 作为 N 的 定语 (N 作 中 心 语 ) 


当 实 例 化 为 “翻译 /小 说 "时 ， 可 以 理解 为 “翻译 某 部 小 说 ”(\ 述 宾 结 
FJ) ， 也 可 以 理解 为 "翻译 的 小 说 ”( 偏 正 结构 ) ， 洪 在 疏 义 转化 为 现 
实 的 歧义 。 


当 实 例 化 为 “开动 /机 器 时， 只 能 理解 为 “开动 某 种 机 器 ”(\ 述 宾 结 
TJ) ， 洪 在 歧义 消失 。 


(12) V + ADJ: 


ADJ 可 作为 述 语 V 的 补 语 ， 形 成 述 宾 结 构 ，ADJ 又 可 作为 述 语 V 的 
宾语 ， 形 成 述 宾 结 构 。V 又 可 作为 主语 ，ADJ 作 V 的 谓语 ， 形 成 主 谓 结 
构 。 这 样 ，V + ADJ 就 可 具有 述 补 一 述 宾 一 主 谓 潜在 歧义 。 


当 实 例 化 为 “说 /清楚 ?时 ， 只 能 理解 为 述 补 结构 〈“ 说 ”是 述 语 ,“ 清 
楚 ? 是 补 语 ) ， 不 能 理解 为 述 宾 或 主 请 结构 ， 潜 在 卜 义 消失 。 


当 实 例 化 为 “感到 /混乱 ”时 ， 只 能 理解 为 述 宾 结 构 (“感到 ”是 述 
a, “混乱 ”是 宾语 ) ， 不 能 理解 为 述 补 结构 或 主 谓 结构 ， 潜 在 歧义 也 
消失 。 

当 实 例 化 为 “认识 /落后 ?时 ， 只 能 理解 为 主 谓 结构 (“认识 ”是 主 
iB. “落后 ”是 谓语 ) ， 不 能 理解 为 述 补 结构 或 述 宾 结 构 ， 汪 在 歧义 也 
消失 。 


(13) V1+V2 (趋向 动词 ) : 


趋 癌 动 词 V2 可 以 作为 V1 的 补 语 ， 形 成 述 补 结构 ，V2 又 可 作为 V1 
的 宾语 ， 形 成 述 宾 结 构 。 这 样 ，V1 + V2 (趋向 动词 ) 可 具有 壕 补 一 壕 
宾 潜 在 歧义 。 
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当 实 例 化 为 “ 想 / 起 来 "> 时， 可 以 理解 为 “ 想 得 起 来 ”(\“ 起 
来 ” 作 * 想 ”的 补 语 ) ， 也 可 以 理解 为 “ 想 从 某 个 地 点 起 来 ”(“ 起 
来 ” 作 “ 想 ”的 宾语 ) ， 洪 在 歧义 转化 为 现实 的 歧义 。 


当 实例 化 为 “ 坐 /下 去 "时 ， 趋 向 动词 “下 去 ”只 能 理解 为 动词 “ 坐 " 的 
补 语 ， 形 成 述 补 结构 ， 潜 在 歧义 消失 


当 实 例 化 为 “要 求 / 下 去 ”时 ， 趋 向 动词 “下 去 ”只 能 理解 为 动词 “要 
求 ”的 宾语 ， 形 成 述 宾 结构 ， 潜 在 卜 义 消失 。 


(14) ADJ1 + ADJ2: 


ADJ1 和 ADJ2 可 以 形成 联 谓 结构 ， 又 可 以 形成 偏 正 结构 ， 从 而 产 
生 联 请 一 偏 正 的 潜在 歧义 。 


当 实 例 化 为 “干净 /利落 * 时 ， 只 能 理解 为 “ 义 干净 义 利落 ”"， 是 联 谓 
结构 ， 潜 在 卜 义 消失 。 
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色 ”,“ 紫 " 作 “ 红 ?的 定语 ， 形 成 侦 正 结构 ， 汪 在 歧义 也 消失 。 


(15) V1 + V2: 


在 汉语 科技 术语 中 ，V1 + V2 具 有 联 谓 一 状 中 一 述 宾 一 述 补 玻 义 。 
这 种 情况 ， 在 日 稼 书面 汉语 中 也 存在 。 如 采 V2 是 趋 问 动 词 ， 则 具有 述 
宾 一 述 补 牙 义 [如 (13) 中 所 述 | 。 这 里 研究 V2 不 是 趋向 动词 的 情 
Wi o 


当 实 例 化 为 “审核 /批准 ”时 ， 可 以 理解 为 “审核 并 且 批 准 *"， 是 联 谓 
结构 ， 也 可 以 理解 为 “经 过 审核 之 后 批准 *"， 是 状 中 结构 ， 述 补 和 壕 宾 
的 潜在 卜 义 部 分 地 消失 。 


当 实 例 化 为 “分 析 / 检 查 ” 时 ， 只 能 理解 为 “分 析 并 且 检 查 ”， 是 联 谓 
结构 ， 状 中 、 壕 宾 、 述 补 等 潜在 收 义 消失 。 

当 实 例 化 为 “ 举 手 / 表 决 " 时 ， 只 能 理解 为 “以 举 手 的 方式 来 表决 ”， 
征 状 中 结构 ， 联 谓 、 述 宾 、 述 补 等 潜在 歧义 消失 。 


当 实 例 化 为 “表示 /欢迎 ”时 , “欢迎 ”是 “表示 ”的 宾语 ， 只 能 理解 为 
述 宾 结构 ， 联 谓 、 状 中 、 述 补 等 玻 义 消失 。 

当 实 例 化 为 “ 淋 / 透 ?时 (“衣服 叫 雨 淋 透 了 ”) , 3E" (V2) X 
ze" (V1) 的 结果 ， 是 述 补 结构 ， 联 谓 、 状 中 、 壕 宾 等 潜在 卜 义 消 
A o 


(16) N * V: 


在 汉语 科技 术语 中 ，N + V 有 主 谓 一 状 中 潜在 歧义 。 在 日 常 汉 语 
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当 实 例 化 为 “系统 /研究 ”时 ， 可 以 理解 为 “系统 被 研究 了 ”( 主 谓 结 
TJ) ， 也 可 以 理解 为 “系统 地 进行 研究 ”( 状 中 结构 ) ， 还 可 以 理解 


为 “系统 的 研究 ”( 定 中 结构 ) ， 洪 在 卜 义 转化 为 现实 的 歧义 。 
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当 实 例 化 为 上午/ 开会 ?时 ， 只 能 理解 为 “在 上 午 开 会 ”， 名 词 “ 上 
午 ” 作 动词 “开会 ”的 状语 ， 形 成 状 中 结构 ， 主 请 、 定 中 等 潜在 歧义 消 
Ho 


当 实例 化 为 “工业 /建设 ”时 ， 只 能 理解 为 “工业 的 建设 *"， 名 词 “ 工 
业 ” 作 动词 “建设 ”的 定语 ， 形 成 定 中 结构 ， 主 请 、 状 中 等 次 在 歧义 消 
Ho 


(17) Prep + N1 + 的 + N2: 


介词 Prep 一 般 是 “关于 、 对 于 、 在 ”等 ， 如 果 Prep 的 宾语 只 是 
N1,“Prep + N1” 与 “的 ”结合 成 “的 字 结 构 ” 作 N2 的 定语 ， 整 个 格式 是 定 中 
结构 ， 但 是 ， 介 词 Prep 的 宾语 也 可 能 是 “N1 + 的 +N2” 这 个 名 词 词组 ， 
整个 格式 是 介 宾 结构 。 由 于 层次 的 不 同 ， 整 个 格式 的 含义 也 束 不 同 ， 
这 产生 了 歧义 。 


如 采 介 词 为 “关于 ”， 当 实例 化 为 “关于 曹 帅 的 书 * 时 ， 可 以 理解 
为 “天 于 曹 帅 的 某 一 本 书 ”， “关于 曹 时 的 ”* 作 “ 书 ” 的 定语 ， 也 可 以 把 “ 曹 
转 的 书 ?理解 为 介词 “关于 ”的 宾语 ， 形 成 介 宾 结构 ， 洪 在 收 义 转化 为 现 
实 的 歧义 。 
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词 < 关 于 "的 宾语 ， 洲 在 歧义 消失 。 


当 实 例 化 为 “关于 语法 的 书 ” 时 ， 只 能 理解 为 “关于 语法 的 ” 作 和 名 
词 “ 书 ”的 定语 ， 光 在 玻 义 也 请 失 。 


如 果 介 词 为 "对 于 ”， 当 实例 化 为 "对 于 老师 的 意见 "时 ， 可 以 把 “对 
于 老师 的 ”理解 为 名 词 意见 的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 也 可 以 
理解 为 “老师 的 意见 * 作 介词 “对 于 ”的 宾语 ， 整 个 结构 是 一 个 介 宾 结 
构 ， 潜 在 卜 义 转化 为 现实 的 歧义 。 


当 实 例 化 为 "对 于 罪犯 的 判 词 * 时 ， 只 能 理解 为 "对 于 罪犯 的 " 作 名 
词 “ 判 词 * 的 定语 ， 整 个 结构 只 能 是 一 个 偏 正 结构 ， 潜 在 上 义 消失 。 


如 果 介词 为 在 *"， 当 实例 化 为" 在 路 北 商 店 "时 ， 可 以 理解 为 "在 路 
北 的 "限定 名 词 “商店 ”， 作 “商店 "的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 
也 可 以 理解 为 "路 北 的 商店 " 作 介词 “在 "的 宾语 ， 整 个 结构 是 一 个 介 宾 
结构 ， 潜 在 歧义 转化 为 现实 的 歧义 。 


当 实 例 化 为 "在 学 校 的 老师 ?时 ， 只 能 理解 为 "在 学 校 的 ” 作 名 词 “ 老 
师 * 的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “在 学 校 的 图 书馆 ”时 ， 只 能 理解 为 “学 校 的 图 书馆 ” 作 
介词 “在 ”的 宾语 ， 整 个 结构 是 一 个 介 宾 结构 ， 洪 在 卜 义 也 消失 。 


在 汉语 中 ， 由 于 介词 对 于 宾语 管辖 范围 的 宽 狭 不 同 而 形成 歧义 二 
很 普遍 的 。 在 英语 中 ， 由 于 介词 词组 PP 的 挂靠 的 成 分 不 同 ， 易 于 产生 
层 义 。 在 汉语 中 ， 由 于 介词 Prep 的 管辖 领域 不 同 ， 易 于 产生 上 玻 义 。 英 
语 和 汉语 中 的 不 少 歧义 都 是 由 于 介词 引起 的 ， 但是， 歧义 产生 的 条 件 
并 不 完全 一 样 ， 这 是 汉语 与 英语 的 不 同 之 处 。 


(18) VP + ADJ + 的 + N: 


ADJ 可 以 作为 VP 的 宾语 ， 述 宾 结 构 “V + AD] 再 加 上 “的 ” 作 名 词 N 
的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 但 是 ，ADJ 也 可 以 加 上 “的 ”之 后 
作为 名 词 N 的 定语 , “ADJ+ 的 + N” 整 个 名 词 词组 作为 VP 的 宾语 ， 整 个 
结构 是 一 个 述 宾 结构 。 因 此 ， 束 产生 了 定 中 一 述 宾 潜 在 歧义 。 


当 实 例 化 为 “喜欢 /干净 /的 /小 孩 " 时 ， 可 理解 为 “喜欢 某 一 个 干净 的 
小 孩 ”( 述 宾 结 构 ) ， 也 可 以 理解 “ 某 一 个 喜欢 干净 的 小 孩 ” 〈 定 中 结 
FJ) ， 潜 在 卜 义 转化 为 现实 的 歧义 。 


当 实 例 化 为 "研究 /困难 /的 /问题 ?时 ， 只 能 理解 为 “研究 / 某 些 困难 的 
问题 “困难 的 问题 "作为 “研究 ”的 宾语 ， 形 成 述 宾 结构 ， 漠 在 歧义 消 
Ho 


当 实 例 化 为 “显得 宽阔 的 街道 "时 , “显得 宽阔 的 ”作为 “街道 ”的 定 
语 ， 形 成 定 中 结构 ， 潮 在 上 收 义 也 消失 。 


(19) VP + N1 + 的 + N2: 


N1 作 为 VP 的 宾语 ， 述 宾 结 构 “VP + N1” 加 上 “的 ”之 后 ， 作 和 名词 N2 
的 定语 ， 整个 结构 是 一 个 定 中 结构 ， N1 又 可 与 “能 ”结合 在 一 起 限定 
N2， 作 N2 的 定语 ，“N1 + 的 + N2” 这 个 名 词 词组 再 作为 VP 的 宾语 ， 整 
个 结构 是 一 个 述 宾 结构 ， 因 此 ， 产 生 定 中 一 述 宾 潜在 歧义 。 


当 实 例 化 为 “ 咬 死 了 /猎人 /的 / 狗 ”* 时 ， 可 以 理解 为 “ 咬 死 了 一 只 猎人 
的 狗 ”, “猎人 的 狗 ? 作 “路 死 了 ”的 定语 ， 整 个 结构 是 述 宾 结构 ， 又 可 以 
理解 为 “一 只 把 猎人 咬 死 的 狗 ”,“ 咬 死 了 猎人 "是 “ 狗 ?” 的 定语 ， 束 个 结 
构 是 定 中 结构 ， 这 样 ， 江 在 歧义 束 变 成 了 现实 的 收 义 。 


当 实 例 化 为 “ 咬 死 了 / 独 和 人 /的 / 鸡 ” 时 , “猎人 的 鸡 ” 作 为 “ 咬 死 了 ”的 宾 
语 ， 整 个 结构 只 能 理解 为 述 宾 结构 ， 漠 在 收 义 消失 。 


当 实 例 化 为 “ 哎 死 了 /狐狸 /的 / 狗 ” 时 ,，“ 哎 死 了 狐狸 的 * 作 “ 狗 ” 的 定 
语 ， 整 个 结构 只 能 理解 为 是 中 结构 ， 漠 在 收 义 消失 。 


当 实 例 化 为 “ 卖 掉 了 /猎人 /的 / 狗 ? 时 ,“ 猎 人 的 狗 ? 作 为 “天 把 了 ”的 宾 
语 ， 整 个 结构 只 能 理解 为 述 宾 结构 ， 漠 在 收 义 消失 。 


当 实例 化 为 “前 /苹果 /的 / 刀 ”， “前 苹果 的 ”作为 “ 思 ” 的 定语 ， 整 个 结 
构 只 能 理解 为 是 中 结构 ， 漠 在 歧义 消失 。 


SPAA KERWIN, “苹果 的 皮 ” 作 为 “前 ”的 宾语 ， 整 个 
结构 只 能 理解 为 述 宾 结 构 ， 潜 在 歧义 消失 。 


(20) VP1 + VP2 + 的 + N: 


VP2 可 作为 VP1 的 宾语 ， 这 个 述 宾 结构 再 加 上 “的 * 作 名 词 N 的 定 
语 ， 整 个 结构 形成 一 个 定 中 结构 ，VP2 又 可 以 与 “的 ”一 起 作 名 词 N 的 定 
语 ， 然 后 名 词 词组 “VP2 + 的 + N” 再 作为 VP1 的 宾语 ， 整 个 结构 形成 一 
个 述 宾 结构 ， 这 样 ， 束 产生 了 述 宾 一 定 中 漠 在 卜 义 。 


当 实例 化 为 “看 /打球 /的 /同学 * 时 ， 可 以 理解 为 “看 /打球 的 同 
学 ”,“ 打 球 的 同学 ? 作 VP1“ 看 ”的 宾语 ， 整 个 结构 是 述 宾 结构 : 又 可 以 
理解 为 “看 打球 的 /同学 ”, “看 打球 的 ” 作 名 词 “ 同 学 ”的 定语 ， 整 个 结构 
古 定 中 结构 ， 这 样 ， 潜 在 的 述 宾 一 定 中 卜 义 束 转 化 成 现实 的 述 宾 一 定 
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当 实 例 化 为 “练习 /跑步 /的 /运动 员 ” 时 ， 只 能 理解 为 “练习 跑步 的 / 运 
zm", “练习 跑步 的 ” 作 名 词 “ 运 动员 ”的 定语 。 整 个 结构 只 能 是 定 中 结 


构 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “修改 /编写 /的 /程序 * 时 ， 只 能 理解 为 “修改 /编写 的 各 
序 "，“ 编 写 的 程序 " 作 VP1" 修 改 "的 宾语 ， 整 个 结构 是 一 个 述 宾 结构 
潜在 歧义 消失 。 


(21) V + N1 + N2: 
N1 和 N2 可 以 分 别 作 V 的 宾语 ， 形 成 双 宾 语 结构 , N1 又 可 作 N2 的 定 


语 ， 组 成 “N1+ N2” 的 名 词 词 组 作 V 的 宾语 ， 这 就 产生 了 双 宾 语 结构 和 
述 宾 结构 的 潜在 收 义 。 


当 实 例 化 为 " 赠 / 日 本 /图 书 ”， 可 以 把 “日 本 ”理解 为 " 赠 ” 的 间接 宾 
语 ， 把 “图 书 ? 理 解 为 " 赠 ” 的 直接 宾语 ， 整 个 结构 是 一 个 双 宾 语 结构 ; 
又 可 以 把 “日 本 ”理解 为 “图 书 ” 的 定语 。“ 日 本 图 书 ” 理 解 为 * 赠 ”的 宾 
语 ， 整 个 结构 是 一 个 述 宾 结构 ， 这 样 ， 洪 在 攻 义 吏 转 化 成 了 现实 的 层 
Yoo 
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当 实 例 化 为 “ 交 / 老 师 /作业 本 ”时 ， 只 能 把 “老师 "理解 为 “ 交 * 的 间接 
宾语 ， 把 “作业 本 "理解 为 直接 宾语 ， 整 个 结构 是 双 宾 语 结构 ， 潜 在 上 
义 消失 。 


(22) V1 + N+ V2: 


N 可 与 V2 组 成 主 谓 结 构 作 V1 的 宾语 ， 形 成 主 谓 结 构 作 宾语 的 述 宾 
结构 ，N 又 可 作为 V1 的 宾语 ， 作 V2 的 主语 ， 形 成 兼 语 结构 ，N 和 V2 又 
可 分 别 作 为 V1 的 宾语 ， 形 成 双 宾 语 结 构 ，N 还 可 作为 V1 的 宾语 ， 与 V2 


一 起 ， 形 成 连 动 结构 。 这 样 ,“V1 + N + V2? 就 可 具有 述 宾 一 兼 语 一 双 
宾 一 连 动 的 潜在 皮 义 ， 


当 实例 化 为 “希望 /小 王 / 来 "时 ,“ 小 王 来 ”这 个 主 谓 结构 作为 动 
词 “ 布 户 ” 的 宾语 ， 形 成 述 宾 结构 ， 不 能 解释 为 兼 语 、 双 宾 、 连 动 等 结 
构 ， 潜 在 上 下 义 消失 。 


当 实 例 化 为 “请 /小 王 /来 "时 ， 名 词 “小 王 ” 作 动词 “请 ”的 宾语 ， 义 作 
动词 “来 ”的 主语 ， 形 成 兼 语 结构 ， 不 能 解释 为 述 宾 、 双 宾 、 连 动 等 结 
构 ， 潜 在 导 义 消失 。 

当 实 例 化 为 “通知 /小 王 / 开 会 "时 ， 和 名 词 “ 小 王 ” 和 动词 “开会 ”分 别 作 
为 动词 “通知 ”的 宾语 ， 形 成 双 宾 语 结 构 ， 不 能 解释 为 述 宾 、 兼 语 、 连 
动 结 构 ， 潜 在 卜 义 消失 。 

当 实 例 化 为 “上 /图 书馆 /学 习 ” 时 ,， “上 图 书馆 ”与 “学 习 ” 形 成 连 动 结 
构 ， 不 能 解释 为 述 宾 、 兼 语 、 双 宾 结 构 ， 潜 在 卜 义 消失 。 


(23) N+V + NP+AP: 


“N+ V+ NP” 可 形成 一 个 主 请 宾 齐 全 的 句子 (小 句 ) ， 作 为 AP 的 
主语 ，AP 作 为 它 的 谓语 ， 整 个 结构 是 一 个 主 谓 结构 ， 以 小 句 作为 主 
iB; “NP + AP” 又 可 以 作为 一 个 主 谓 结构 ， 充 当 动 词 V 的 宾语 ，N 作 V 
的 主语 ， 整 个 结构 成 为 一 个 主 谓 宾 齐 全 的 句子 ， 如 果 不 管 主语 N， 
则 “V + NP + AP” 形 成 一 个 述 宾 结构 ，N 作 主语 ，NP 可 作为 V 的 宾语 ， 
又 作为 AP 的 主语 ,，“V + NP + AP” 形 成 兼 语 结构 ， 因 此 ， 便 可 产生 主 
iB (小 句 为 主语 ) RGB EIR o 


当 实例 化 为 “ 张 三 / 笑 / 李 四 / 很 繁 ?时 ， 可 以 理解 为 “ 张 三 笑 李 四 ” 作 
主语 , “很 沦 ” 作 谓语 ， 形 成 以 小 名 为 主语 的 主 谓 结构 ;又 可 以 理解 
为 “ 张 三 / 突 李 四 很 漂 ”,“ 李 四 ? 作 动 词 “ 笑 ?的 宾语 ， 又 作 AP“ 很 尝 ? 的 主 
语 ,“ 笑 李 四 很 答 ” 形 成 兼 语 结构 ， 但 这 时 “ 笑 李 四 很 案 * 不 能 理解 为 述 
宾 结 构 ， 潜 在 卜 义 部 分 地 转化 为 现实 的 卜 义 。 


当 实 例 化 为 “小 王 / 说 /故事 /很 有 趣 ” 时 ， 可 以 理解 为 “小 王 说 故事 /很 
有 趣 ”,“ 人 小 王 说 故事 ”作为 主语 , “很 有 趣 ? 作 谓语 ， 形 成 以 小 句 为 主语 
的 主 谓 结构 ;又 可 以 理解 为 “小 王 说 /故事 很 有 趣 ”, “故事 很 有 趣 ” 作 动 
词 “ 说 ”的 宾语 ,， “说 /故事 很 有 趣 ” 形 成 述 宾 结构 ， 但 “说 故事 很 有 趣 ” 不 
能 理解 为 兼 语 结构 ， 洪 在 卜 义 部 分 地 转化 为 现实 的 歧义 。 


当 实 例 化 为 “他 / 考 /第 一 名 / 太 好 了 ”时 ， 只 能 把 “他 考 第 一 名 ”这 个 
小 句 理解 为 主语 ,“ 太 好 了 ”理解 为 谓语 ， 整 个 结构 只 能 理解 为 以 小 句 
为 谓语 的 主 谓 结 构 ， 漠 在 歧义 消失 。 


当 实 例 化 为 “我 /以 为 /你 /喜欢 ”时 ， 只 能 把 “你 豆 欢 ”理解 为 动词 “以 
为 ”的 宾语 , “以 为 /你 喜欢 ”只 能 理解 为 述 宾 结构 ， 漠 在 歧义 消失 。 


当 实例 化 为 “ 张 三 / 批 评 / 李 四 /不 用 功 ” 时 ,“ 李 四 *” 作 动词 “批评 ”的 宾 
语 ， 又 作 AP“ 不 用 功 ” 的 主语 , “批评 李 四 不 用 功 ” 形 成 兼 语 结 构 ， 潜 在 
BOGE ° 


(24) N1 + 的 + N2 + 和 + N3: 


由 于 连词 < 和 ”管辖 领域 的 不 同 ， 其 层次 可 以 理解 为 (N1 + 的 + 
N2) + 和 + (N3) ， 也 可 以 理解 为 N1 + 的 + (N2 + 和 + N3) ， 从 而 产生 
潜在 歧义 。 


当 实 例 化 为 “眼镜 /的 / 框 子 /和 /镜片 ?时 ， 可 以 理解 为 < (眼镜 的 框 
FT) 和 (镜片) ”， 也 可 以 理解 为 “眼镜 的 ( 框 子 和 镜片 ) ”， 潜 在 歧义 
转化 为 现实 的 歧义 。 


当 实 例 化 为 “眼镜 /的 / 框 子 /和 /钢笔 时 ， 只 能 理解 为 “(眼镜 的 框 
T) 和 (钢笔 ”， 洪 在 歧义 消失 。 

(25) N1 + 和 + N2 + 的 + N3: 

由 于 连词 < 和 ”管辖 领域 的 不 同 ， 其 层次 可 以 理解 为 (NI + 和 + 


N2) + 的 + N3， 也 可 以 理解 为 NI + 和 + (N2 + 的 + N3) ， 从 而 产生 潜在 
歧义 。 


当 实 例 化 为 “桌子 /和 /椅子 /的 / 腿 * 时 ， 可 以 理解 为 “(桌子 和 椅子 ) 
的 腿 ”， 也 可 以 理解 为 “桌子 和 (椅子 的 腿 ) ”， 从 而 产生 潜在 歧义 。 


当 实 例 化 “地 秩 / 和 /桌子 /的 / 腿 *” 时 ， 只 能 理解 为 “地 筷 和 (桌子 的 
BR) ”， 潜 在 歧义 消失 。 
(26) N1+ ADJ + 的 + N2: 
ADJ 可 与 N1 组 成 主 谓 结构 ， 与 “的 ”一 起 作 N2 的 定语 ， 其 层次 可 理 
解 为 (N1 + ADJ) + 的 + N2; ADJ 又 可 以 与 “的 ”一 起 作 N2 的 定 


if, “ADJ + 的 + N2” 构 成 的 名 词 词组 受 N1 的 限制 和 修饰 ， 其 层次 可 以 
理解 为 N1+ (ADJ+ 的 +N2) œ 


当 实 例 化 为 “营养 /丰富 /的 /晚餐 ”时 ， 其 层次 为 * (营养 丰富 ) BUE 
和 餐 ”"， 主 谓 结构 “营养 丰富 ”与 “的 ”一 起 作 “ 晚 餐 ” 的 定语 ， 潮 在 歧义 消 


DN 


当 实 例 化 为 中国/ 丰富 /的 /资源 "时 ， 其 层次 为 "中国 (丰富 的 资 
源 ) ”,“ 中 国 ” 作 “丰富 的 资源 ?的 定语 ， 江 在 蚊 义 消失 。 


在 汉语 日 常 语言 中 的 同形 歧义 结构 还 很 多 ， 以 上 只 是 举 出 主要 的 
儿 种 来 说 明 ， 同 形 歧义 结构 也 是 汉语 日 常 语言 中 普 衣 存在 的 现象 。 


从 以 上 论述 可 以 看 出 ， 尽 管 在 目 然 语言 中 存在 大 量 的 同形 歧义 结 
构 ， 但 是 ， 它 们 的 PT- 结 构 都 是 次 在 歧义 结构 ， 在 PIT- 结 构 实 例 化 的 过 
程 中 ， 由 于 词汇 单元 的 插入 ， 使 得 许多 潜在 收 义 结构 未 能 转化 为 现实 
的 收 义 结构 ， 从 而 导致 潜在 歧义 的 消失 。 这 说 明 目 然 语言 的 结构 在 其 
实例 化 过 程 中 有 一 种 自行 消解 卜 义 的 功能 ， 正 古 由 于 这 种 自行 消解 层 
义 的 功能 的 作用 ， 尽 管 在 目 然 语言 中 存在 大 量 的 潜在 卜 义 结构 ， 但 在 
具体 的 语言 活动 中 ， 许 多 潜在 歧义 部 目 行 消 解 了 ， 正 古 因 为 这 个 原 
因 ， 目 然 语 言 仍然 能 够 完成 其 交流 思想 的 功能 ， 不 至 于 处 处 产生 此 
义 ， 引 起 误解 。 


HU, BABS ARE (ambiguity) 的 一 面 ， 又 有 非 歧 义 性 
(non-ambiguity) 的 一 面 ， 自 然 语 言 中 充满 着 潜在 收 义 ， 是 它 的 歧义 
性 的 表现 ， 而 目 然 语言 的 这 种 自行 消解 歧义 的 功能 ， 又 是 它 的 非 蚊 义 
性 的 表现 。 我 们 提出 的 “潜在 歧义 论 >?， 正 好 揭示 了 目 然 语言 的 这 种 歧 
义 性 和 非 歧 义 性 对 立 统一 的 规律 性 。 


我 们 在 目 然 语 言 处 理 中 ， 有 必要 利用 “潜在 歧义 论 ” 的 基本 原理 ， 
TOR ATE S CTE, FED BAe SAP ME, Mil tei HIIS 
言 处 理 系 统 的 效能 。 


第 四 市 ”结构 卜 义 消解 的 方法 


我 们 在 第 二 章 中 讨论 了 词义 排 歧 的 方法 ， 这 是 关于 词汇 歧义 的 消 
解 方法 ; 现在 我 们 讨论 结构 歧义 的 消解 方法 o 

在 自然 语言 处 理 的 研究 中 ， 早 在 20 世 纪 60 年 代 ， 美 国 哈佛 大 学 教 
授 久 时 (Susumu Kuno) 就 提出 了 结构 歧义 消解 (disambiguity) 的 问 


题 。 


久 时 指出， 英语 句子 “Time flies like an arrow” 有 若干 个 卜 义 的 分 析 
结果 。 因 为 time 可 以 为 名 词 (词义 为 “时间 ”) ， 也 可 以 为 动词 (词义 
为 “测定 、 拨 准 ?” 等 ) ， 还 可 以 为 形容 词 〈 词 义 为 “定期 的 ”) ，flies 可 以 
为 动词 现在 时 单数 第 三 人 称 GIL K) ， 也 可 以 为 名 词 复数 ( 词 
SMASH) ;like 可 以 为 动词 (词义 为 “ 豆 欢 ”) ， 也 可 以 为 介词 ( 词 
SAMA, 8) 。 这 样 ， 这 些 词 可 以 组 成 结构 各 不 相同 的 句子 ， 形 成 
歧义 句 。 


DAY TRI B — EE. 630; 
@) 测 量 那些 像 箭 一 样 的 苍蝇 
G@) 叫 做 Time 的 那 只 苍蝇 喜欢 箭 o 


学 者 们 普遍 感觉 到 ， 绪 构 牙 义 是 语言 目 动 分 析 的 一 个 环 手 问题 。 
然而 ， 从 潜在 歧义 论 可 知 ， 自 然 语言 本 身 在 PT- 结 构 的 实例 化 过 程 
中 ， 有 目 行 消解 收 义 的 功能 ， 我 们 只 要 目 沉 地 利用 这 种 功能 ， 束 有 可 
能 达到 部 分 地 消解 层 义 的 目的 。 


我 们 认为 ， 目 前 在 目 然 语言 的 计算 机 处 理 中 ， 普 遍 采 用 的 结构 导 
义 消 解 方法 ， 归 纳 起 来 不 外 两 种 : 一 种 是 基于 “制约 ”(constraint) 的 
歧义 消解 方法 ， 一 种 是 基于 “优选 ” (preference) 的 歧义 消解 方法 。 


所 谓 基 于 “制约 ”的 卜 义 消解 方法 ， 束 十 利用 句法 、 语 义 制约 条 
件 ， 排 除 不 能 满足 制约 条 件 的 结构 ， 从 而 达到 上 收 义 消解 的 目的 。 


在 PT- 结 构 实例 化 过 程 中 ， 由 于 词汇 单元 之 间 句 法 条 件 的 制约 ， 
往往 能 够 消解 歧义 。 例 如 ， 汉 语 中 “数量 结构 + NP1 + 的 + NP2” 这 样 的 
潜在 歧义 结构 ， 可 以 解释 为 “(数量 结构 + NP1) + 的 + NP2”， 也 可 以 理 
解 为 “数量 结构 + (NP1 + 的 + NP2) ”。 如 果 数 量 结 — ERR 
定 NP1， 又 能 限定 NP2， 那 就 必定 会 产生 歧义 ; 但 是 ， 如 果 我 们 根据 
NP1 及 NP2 的 性 质 ， 对 数量 结构 中 的 量词 作 进 一 步 的 “再 分 
类 ” (subcategorization) ， 使 得 数量 结构 中 的 这 个 量词 不 能 同时 限定 
NP1 及 NP2， 便 可 以 消除 歧义 。 


当 这 个 PT- 结 构 实例 化 为 “三 个 学 校 的 实验 员 * 时 ， 由 于 量词 “个 ” 既 
可 以 限定 NP1“ 学 校 *， 又 可 以 限定 NP2“ 实 验 员 ， 因 而 不 能 消除 卜 义 。 


根据 汉语 的 语法 知识 我 们 知道 , “学 校 ? 的 量词 一 般 为 "所 ”, “实验 
员 ” 的 量词 一 般 为 “位 >， 据 此 我 们 对 量词 做 再 分 类 ， 把 “学 校 ” 的 量词 规 
定 为 “所 ”， 将 上 述 把 PT- 结构 实例 化 为 “三 所 学 校 的 实验 员 ”， 由 于 量 
词 “ 所 ”不 能 限定 NP2“ 实 验 员 ”， 其 结构 只 能 理解 为 (三 所 学 校 的 实 
验 员 ”， 卜 义 得 到 消解 ; 我们 如 有 果 把 “实验 员 ” 的 量词 规定 为 “位 >， 将 上 
述 PT- 结 构 实例 化 为 “三 位 学 校 的 实验 员 ， 由 于 量词 “位 * 不 能 限 害 
NP1“ 学 校 >?， 其 结构 只 能 理解 为 “三 位 (学校 的 实验 员 ) ”， 上 收 义 也 可 
得 到 消解 。 


采用 这 样 的 再 4 不 仅 把 量词 分 为 才干 小 类 ， 还 可 以 把 
名 词 分 为 看 干 小 类 ， 把 形容 词 分 为 看 干 小 类 ， 把 动词 分 为 春 干 小 类 ， 
然后 指出 ， n 哪些 小 类 不 能 跟 哪些 小 类 


组 合 ， 便 可 以 在 潜在 收 义 结构 实例 化 的 过 程 中 ， 利 用 这 样 的 句法 制约 
条 件 ， 达 到 消解 上 收 义 的 目的 。 


除了 再 分 类 之 外 ， 还 可 以 根据 其 他 的 句法 关系 来 消解 结构 歧义 。 


在 英语 中 ，“Look at the pages of the book which are written by 
him”( 看 一 看 书 中 他 所 写 的 那 几 页 ) 在 结构 上 也 有 歧义 ，Which- 从 
fJ“which are written by him” 可 能 修饰 the book， 也 可 能 修饰 the pages ° 
根据 * 从 句 中 名 词 的 数 应 该 与 被 修饰 的 名 词 一 致 * 这 样 的 句法 关系， 从 
句 中 用 are written， 古 复数 ， 故 被 其 修饰 的 名 词 应 该 为 复数 ， 不 可 能 是 
the book， 而 应 该 是 the pages ° 根据 这 样 的 句法 条 件 ， 歧 义 得 以 消解 。 


句法 的 制约 条 件 有 时 显得 过 于 和 烦琐， 如 有 果 在 PT- 结 构 实例 化 过 程 
中 利用 词汇 单元 之 间 的 语义 制约 条 件 ， 往 往 能 够 更 加 便捷 地 消除 结构 
BES o 


“VP + N1 + 的 + N2” 这 样 的 潜在 收 义 结构 ， 其 层次 可 以 理解 
为 “(VP + N1+ 的 ) +N2”, (VP + N1 + 的 ) 作 N2 的 定语 ， 是 定 中 结 
构 ， 也 可 以 理解 为 “VP + (N1 + 的 + N2) ", (N1+ 的 + N2) 作 VP 的 定 
语 ， 是 述 宾 结构 ， 这 就 产生 了 潜在 歧义 。 


这 种 潜在 歧义 要 转化 为 现实 玻 义 必须 同时 满足 如 下 三 个 语义 制约 
RT: 


@N1 在 语义 上 可 以 作 VP 的 受 事 ; 


@N2 在 语义 上 可 以 作 VP 的 受 事 ， 当 N1 为 VP 的 受 事 时 ，N2 又 可 作 
VP 的 施 事 ; 


@N1 与 N2 之 间 在 语义 上 存在 领 属 和 被 领 属 的 关系 ，N1 是 领 属 
者 ，N2 是 被 领 属 者 。 


如 有 果 “VP + N1 + 的 + N2? 实 例 化 之 后 ， 可 以 同时 满足 上 述 语义 制约 
三 个 条 件 ， 潜 在 卜 义 便 有 可 能 转化 为 现实 的 歧义 。 


当 实 例 化 为 “ 忠 死 了 猎人 的 狗 ?” 时 ， 人 恰好 满足 上 述 三 个 语义 制约 条 
人 


@“ 猎 人 ”在 语义 上 可 以 作 * 跑 死 了 ”的 受 事 ， 我 们 可 以 说 “ 咳 死 了 猫 
A 


DMP FETE X. Eu] IVE TASS, SAP VEE TAIS 
S, "Ju" CA LEE TS, BAT AT Ais FA) 咬 死 了 
狗 ”， 又 可 以 说 “ 狗 咬 死 了 (什么 ) ”。 


@“ 猎 人 5 与“ 狗 ”之 间 ， 在 语义 上 存在 着 领 属 和 被 领 属 的 关系 ,“ 猜 
人 ”十 领 属 痢 ,“ 狗 ”十 被 领 属 者 。 我 们 可 以 说 “猎人 的 狗 ”。 


因此 ,，“ 咬 死 了 猎人 的 狗 * 可 以 理解 为 <“( 咬 死 了 猎人 的 ) T9" GE 
中 结构 ) ， 又 可 以 理解 为 “ 咬 死 了 (猎人 的 狗 ) ”( 述 宾 结构 ) ， 洪 在 
歧义 转化 为 现实 歧义 。 


如 果 在 实例 化 时 ， 不 能 同时 满足 上 述 三 个 语义 制约 条 件 ， 凌 在 歧 
义 就 不 能 转化 为 现实 歧义 ， 歧 义 得 以 消解 。 


当 实 例 化 为 " 忠 死 了 猎人 的 鸡 ”" 时 ， 满 足 语义 制约 条 件 忆 、(9): 


@@“ 猎 人 ”在 语义 上 可 以 作 * 跑 死 了 ”的 受 事 ， 我 们 可 以 说 “ 跑 死 了 猿 
AUS 


@“ 猎 人 ?与 “ 鸡 ” 之 间 ， 在 语义 上 存在 着 领 属 和 被 领 属 的 关系 ,“ 猜 
人 ”十 领 属 痢 ,“ 鸡 ”十 被 领 属 者 ， 我 们 可 以 说 “猎人 的 鸡 ”。 


但 不 能 满足 语义 制约 条 件 (2): 


“ 鸡 " 可 以 作 “ 忠 死 了 ?的 受 事 ， 但 是 ， 当 “猎人 ” 作 “ 咏 死 了 ”的 受 事 
时 ,“ 鸡 ?在 语义 上 不 能 作 *“ 路 死 了 ”的 施 事 。 从 语义 上 来 考虑 ， 我 们 不 
能 说 “ 鸡 哎 死 了 猎人 ”， 因 为 在 一 般 情况 下 ， 一 只 小 小 的 鸡 是 没有 足够 
的 能 力 咬 死 猎人 的 。 


由 于 不 能 满足 语义 制约 条 件 马 ， 这 个 句子 只 能 理解 为 “ 咬 死 了 ( 猜 
人 的 鸡 )”， 这 是 一 个 述 宾 结构 ， 攻 义 得 以 消解 。 


当 实例 化 为 “ 咬 死 了 狐狸 的 狗 * 时 ， 满 足 语 义 制 约 条 件 史 、(2: 


Q@“ 狐 狸 * 在 语义 上 可 以 作 “ 哎 死 了 ”的 受 事 ， 我 们 可 以 说 “ 咬 死 了 狐 
TH". 
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事 时 ,，“ 狗 ”在 语义 上 可 以 作 “ 哎 死 了 ”的 施 事 ， 我 们 可 以 说 “ 狗 咬 死 了 狐 
JE” e 


但 不 能 满足 语义 制约 条 件 (3): 


“狐狸 "与 " 狗 " 之 间 ， 在 语义 上 不 存在 领 属 与 被 领 属 的 关系 ， 在 一 
般 情况 下 ， 我 们 不 能 说 "狐狸 的 狗 " 。 


由 于 不 能 满足 语义 制约 条 件 (3)， 这 个 句子 只 能 理解 为 ”( 咬 死 了 狐 
狸 的 ) 狗 *”， 这 是 一 个 定 中 结构 。 


当 实例 化 为 “ 卖 掉 了 猎人 的 狗 * 时 ， 只 能 满足 语义 制约 条 件 (3): 


“猎人 ”与 “ 狗 ” 之 间 ， 在 语义 上 存在 领 属 与 被 领 属 的 关系 ， 我 们 可 
以 说 “狂人 的 狗 ”。 


但 是 ， 不 能 满足 语义 制约 条 件 罗 、(2: 


@“ 猎 人 ”在 语义 上 不 能 作 “ 卖 掉 了 ”的 受 事 ， 说 “ 卖 掉 了 狂人”， 在 
TEX heme, AAS, “猎人 ”是 不 能 作为 商品 出 售 
的 ; 


@“ 狗 "在 语义 上 可 以 作 “ 卖 掉 了 ”的 受 事 ， 我 们 可 以 说 “ 卖 掉 了 
狗 "， 但 是 ， 就 是 姑且 当 “ 猎 人 "可 以 作 * 卖 掉 了 "的 受 事 时 (这 在 语义 上 
是 不 可 能 的 ) ，*“ 狗 "在 语义 上 也 不 能 作 * 卖 掉 了 ”的 施 事 ， 说 < 狗 卖 掉 了 
猎人 *， 在 语义 上 也 是 荒 廖 的 。 


由 于 不 能 满足 语义 制约 条 件 册 和 人 @， 这 个 句子 只 能 理解 为 " 卖 掉 了 
(猎人 的 狗 ) ”， 这 是 一 个 述 宾 结构 。 


采用 语义 制约 条 件 来 进行 歧义 消解 ， 显 得 很 方便 ， 很 有 效 。 赵 元 
任 先 生 认为 讲 意 义 是 “ 抄 近 路 " 辐 ， 吕 叔 湘 先生 认为 意义 ”有 时 候 有 “ 速 
记 ” 的 作用 Bl, ， 这 对 于 我 们 研究 语义 制约 条 件 是 很 有 启发 的 。 

“VP + 数量 结构 + NP” 这 个 潜在 卜 义 结构 ， 其 层次 有 时 可 以 理解 
为 “(VP + 数量 结构 ) + NP”， 数 量 结 构 作 VP 的 补 语 ， 有 了 时 可 以 理解 
为 “VP + (数量 结构 + NP) ”， 数 量 结 构 作 NP 的 定语 。 


对 于 这 样 的 潜在 歧义 结构 ， 我 们 可 以 采用 句法 制约 条 件 ， 对 量词 
进一步 作 再 分 类 ， 然 后 ， 说 明 哪些 量词 能 与 哪些 动词 结合 形成 述 补 结 


构 ， 哪 些 量词 与 哪些 名 词 结合 形成 定 中 结构 ， 丈 可 以 进行 歧义 消解 。 
但 是 ， 这 样 做 比较 烦 瑛 ， 如 果 采 用 语义 制约 条 件 ， 根 据 语义 上 是 否 成 
立 来 判断 能 否 形成 发 义 ， 从 而 达到 层 义 消解 的 目的 ， 吏 显得 更 加 便 
BÉ 。 


例如 ， 当 实例 化 为 “ 讲 了 三 年 历史 ”时 ， 可 以 理解 为 <( 讲 了 三 年 ) 
历史 ”,“ 三 年 " 作 * 讲 了 ?的 补 语 ， 表 示 讲 历史 讲 了 三 年 ， 也 可 以 理解 
KAT (三 年 历史 ) 5, “三 年 * 作 “历史 ”的 定语 ,“ 三 年 历史 ” 作 * 讲 
了 ”的 宾语 ， 表 示 讲 了 三 年 之 内 的 历史 ， 这 时 ， 洪 在 歧义 转化 为 现实 收 
义 。 如 有 果 把 “三 年 ? 换 成 < 三 千年 ”， 实 例 化 为 * 讲 了 三 千年 的 历史 ”， 则 
只 能 理解 为 “ 讲 了 (三 千年 的 历史 ) ”, “三 千年 ”只 能 理解 为 “历史 ”的 
定语 ， 而 不 能 理解 为 “ 讲 了 ”的 补 语 ， 因 为 从 语义 上 来 看 ,“ 讲 了 三 干 
年 ”在 语义 上 是 欧 廖 的。 这样， 只 需 把 “三 年 ? 换 成 * 三 千年 ”， 便 可 以 直 
截 了 当地 消解 歧义 。 由 此 可 见 ， 使 用 语义 制约 条 件 的 便捷 之 处 。 


目 然 语 言 处 理 中 普遍 采用 的 另 一 种 结构 歧义 消解 的 方法 是 基于 “ 优 
选 ” 的 歧义 消解 方法 © 

所 谓 “ 优 选 "»， 束 是 在 若干 个 存在 上 疏 义 的 候补 结构 中 ， 选 出 一 个 最 
优 的 结构 ， 从 而 达到 歧义 消解 的 目的 。 

早 在 1975 年 ， 威 尔 克 斯 就 提出 了 “优选 语义 学 ” (preference 


semantics) ， 用 优选 的 方法 来 判定 多 义 词 的 优先 度 。 关 于 优选 语义 
学 ， 我 们 在 第 二 章 中 已 经 介绍 过 了 ， 北 不 竟 迹 。 


对 于 具有 潜在 歧义 的 铬 干 个 候补 结构 ， 也 可 以 根据 候补 结构 的 优 
先 度 来 进行 优选， 消解 歧义 。 


前 面 我 们 说 过 ,，“N + V+ NP + AP” 这 个 潜在 歧义 结构 ， 其 层次 可 
以 解释 为 * (N+V+NP) + AP”， 是 一 个 以 小 句 为 主语 的 主 谓 结构 ， 
又 可 以 解释 为 < (N) + (V) + (NP+AP) ”， 其 中 的 * (v) + (NP+ 
AP) ”是 一 个 述 宾 结构 ， 又 可 以 解释 为 " (N) + (V) + (NP) + 
(AP) ”， 其 中 的 * (V) + (NP + AP) ”是 一 个 兼 语 结构 ， 这 样 ，“N + 
V+NP+AP” 便 具有 主 谓 (以 小 句 为 主语 ) 一 述 宾 一 兼 语 潜在 必 义 。 


海外 有 的 学 者 根据 中 国人 讲 汉 语 时 的 语感 指出 ， 在 这 样 的 湾 在 导 
义 结构 中 ， 逻 辑 主 项 (argument reading) 的 结构 应 该 优先 于 逻辑 附加 
项 (adjunct reading) 的 结构 外 。 兼 语 结构 和 壕 宾 结构 都 是 属于 逻辑 主 
项 的 结构 ， 而 以 小 句 为 主语 的 主 谓 结构 ， 其 谓语 为 AP，AP 是 逻辑 附 
加 项 ， 因 而 应 该 属于 逻辑 附加 项 的 结构 。 这 样 ， 兼 语 结构 和 述 宾 结 构 
的 优先 度 应 大 于 以 小 句 为 主语 的 主 谓 结构 的 优先 度 。 当 出 现 歧义 时 ， 
应 该 优选 兼 语 结构 和 述 宾 结构 ， 从 而 达到 消解 歧义 的 目的 。 


这 样 ， 当 PT 结构 “N + VY + NP + Ap” 实例 化 为 “ 张 三 笑 李 四 很 
笨 ” 时 ， 可 以 理解 为 “ 张 三 / 笑 李 四 很 笨 ”,，“ 笑 / 李 四 / 很 笨 ” 是 一 个 兼 语 结 
构 ， 又 可 以 理解 为 “ 张 三 笑 李 四 / 很 竹 ””， 这 是 以 小 句 “ 张 三 笑 李 四 ”为 主 
语 的 主 谓 结构 。 根 据 兼 语 结构 的 优先 度 应 大 于 以 小 句 为 主语 的 主 谓 结 
构 的 优先 度 的 原则 ， 应 该 选取 兼 语 结 构 ， 排 除 以 小 句 为 主语 的 主 谓 结 
构 。 


当 实 例 化 为 “小 王 说 故事 很 有 趣 ” 时 ， 可 以 理解 为 “小 王 说 /故事 很 
AR, “说 /故事 很 有 趣 ? 是 一 个 述 宾 结构 ， 也 可 以 理解 为 "小 王 说 故事 / 
很 有 趣 ”， 有 是 一 个 以 小 名 为 主语 的 主 谓 结 构 。 根 据 述 宾 结构 的 优先 度 应 
大 于 以 小 句 为 主语 的 主 谓 结构 的 优先 度 的 原则 ， 应 该 选取 述 宾 结构 ， 
排除 以 小 句 为 主语 的 主 请 结构 。 


根据 说 话 人 的 语感 来 规定 结构 的 优先 度 并 不 是 很 科学 的 。 在 上 面 
的 例子 中 ， 把 * 张 三 笑 李 四 很 举 ” 中 的 “ 笑 / 李 四 / 很 全 ”理解 为 兼 语 结构 ， 
把 “小 王 说 故事 很 有 趣 ” 中 的 “说 /故事 很 有 趣 ” 理 解 为 述 宾 结构 ， 在 许多 
场合 是 正确 的 ， 但 并 不 能 绝对 地 排除 把 “ 张 三 突 李 四 很 党? 和 ?小 王 说 故 
事 很 有 趣 ? 理 解 为 以 小 名 为 主语 的 主 谓 结构 的 可 能 性 。2007 年 4 月 在 伊 
朗 发 生 的 英国 水 兵 事件 ， 报 载 新 闻 题 目 “ 英 国 水 兵 出 售 新 闻 很 技 脸 ”， 
显然 应 当 理解 为 主 谓 结构 “英国 水 兵 出 售 新 闻 ” 这 个 小 句 是 主语 , “很 丢 
脸 ” 是 谓语 。 可 见 不 能 随便 排除 作为 小 句 的 主 请 结构 做 主语 的 可 能 性 。 
因为 语感 上 的 优先 度 只 是 表 明了 某 种 选择 的 可 能 性 ， 并 不 能 绝对 地 表 
明 这 种 选择 的 合理 性 和 现实 性 。 语 感 上 的 优先 度 往 往 有 着 强烈 的 主观 
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国外 学 者 们 提出 了 一 些 歧 义 结构 的 排 歧 原 则 ， 主 要 有 "最 小 附着 原 
则 ”和 “ 右 联想 原则 ”。 这 些 原则 也 是 基于 “优选 ?的 。 分 别 介绍 如 下 : 


最 小 附着 原则 (Minimal Attachment) 


H1E19784E, HR (Frazier) 和 弗 托 束 提 出 了 “最 小 附着 原 
则 ” (principle of minimal attachment) 来 进行 附着 关系 的 排 改 。 最 小 附 
着 原则 假定 : 如 果 某 个 结 点 存在 两 种 不 同 的 附着 关系 ， 那 么 ， 优 先 的 
附着 是 最 小 附着 ， 所 谓 “ 最 小 附着 ”>， 残 是 该 结 点 的 附着 结构 中 具有 较 
少 结 点 的 附着 结构 。 


例如 ， 在 句子 “John hid the photo in the drawer” F, SW “hid”? FE 
附着 歧义 : 一 种 附着 是 NP (the photo) + PP (inthe drawer) ， 这 时 ， 
NP 是 它 的 宾语 ，PP 是 它 的 地 点 状语 ， 一 种 附着 是 NP (the photo in the 
drawer) ， 这 时 ，NP 作 为 它 的 宾语 。 由 于 NP + PP 附着 包含 4 个 结 点 ， 


而 NP 附 着 包含 5 个 结 点 ， 所 以 ， 选 择 NP + PP 附着 作为 优先 的 附着 。 


图 5.18 所 示 。 


S 
p d ln 
NP VP 
John NP PP 
hid Det N in the drawer 
| 
the photo 
(NP+PP 附 着 包含 4 个 结 点 ， 用 黑体 字符 表示 ) 
S 
Be TE. 
NP VP 
John V NP 
| 
hid Det NP 
| nt CI 
the N PP 


| 
photo n er 


in the drawer 


(NP 附 着 包括 5 个 结 点 ， 用 黑体 字符 表示 ) 
图 5.18 “最 小 附着 原则 


上 面 一 个 树 形 图 中 附着 于 动词 “hid” 的 结 点 有 4 个 ， 下 面 一 


如 


个 树 形 


图 中 附着 于 动词 “hid” 的 结 点 有 5 个 ， 根 据 “ 最 小 附 厦 原则 ”， 远 择 上 面 
一 个 树 形 图 作为 正确 的 分 析 结 果 。 这 个 句子 的 意思 是 “John 把 照片 藏 在 


抽 屋 里 *”， 而 不 是 John 把 在 抽 屋 里 的 照片 茂 起 来 了 ”。 这 样 的 移 择 与 人 
的 语感 很 接近 。 因 为 人 也 倾向 于 “ohn 把 照片 藏 在 抽 屈 里 ”这 样 一 种 更 
加 合乎 情理 的 选择 。 


最 小 附着 原则 显然 与 语法 规则 指派 给 句子 的 结构 形式 有 关 。 在 一 
般 情 况 下 ， 这 个 原则 适用 于 那些 具有 寿 干 个 子 结 点 的 规则 。 如 采 语 法 
的 规则 具有 乔 姆 斯 基 范 式 (规则 是 二 分 的 ， 显 然 束 很 难 使 用 最 小 附 
着 原则 。 


一 一 右 联 想 原 则 (Right Association) 


1973 年 ， 金 补 尔 (Kimball) 提出 剖析 的 7 项 原则 ， 其 中 一 条 原则 
征 “ 右 联想 原则 ”: 附着 于 剖析 树 右 侧 的 位 置 最 低 的 当前 成 分 优先 于 剖 
析 树 中 位 置 较 高 的 其 他 成 分 。 


根据 “ 右 联 想 原 则 ”， 5.19 中 的 “yesterday” 应 该 优先 修 
饰 “arrived”， 而 不 是 修饰 “thought”。 


S 
NP VP 
Lorna V S 
| P S 
thought NP VP 
Ron T n 
V yesterday 
arrived 


图 5.19 AGERE 


然而 ， 如 果 我 们 使 用 “ 右 联 想 原 则 ”来 分 析 句 子 “John hid the photo 
in the drawer”， 则 优先 的 选择 应 该 是 “John 把 在 抽 居 里 的 照 厂 藏 起 来 
了 J”， 而 不 是 “john 把 照片 藏 在 抽 居 里 *。 这 样 的 结论 与 使 用 “最 小 附着 
原则 ”的 结论 正好 相反 。 


由 此 可 见 ， 国 外 学 者 们 提出 的 这 些 优先 原则 能 够 启发 我 们 做 出 茶 
种 推测 ， 但 臣 并 不 能 让 我 们 做 出 切实 可 靠 的 推测 。 


在 实际 的 目 然 语言 处 理 系统 中 ， 向 常 把 基于 “制约 ”的 上 下 义 消解 方 
法 和 基于 “优选 ”的 收 义 消解 方法 结合 起 来 ， 用 基于 “制约 ”的 方法 排除 
那些 不 能 满足 制约 条 件 的 歧义 ， 用 基于 “优选 ”的 方法 比较 各 种 歧义 的 
优先 度 ， 选 取 其 中 的 最 优 者 ， 从 而 达到 歧义 消解 的 目的 。 


目 从 20 世 纪 80 年 代 马 丁 : 凯 依 所 出 功能 合 一 语法 (Functional 
Unification Grammar) [S| 以来， 在 目 然 语言 处 理 系统 中 普遍 采用 复杂 
特征 集 和 合 一 运算 的 方法 。 人 们 发 现 ， 在 自然 语言 分 析 系 统 中 ， 随 着 
分 析 的 进行 ， 包 含 在 自然 语言 中 的 信息 是 单调 递增 的 ， 这 就 是 目 然 语 
言 分 析 系 统 中 信息 的 “单调 递增 性 ” (information monotonicity) ° 


根据 这 种 信息 的 单调 递增 性 ， 有 的 学 者 提出 ， 对 目 然 语言 分 析 过 
程 中 出 现 的 歧义 ， 应 该 做 渐进 的 评价 (incremental evaluation) 。 有 的 
学 者 提出 了 “渐进 歧义 消解 法 ” (ncremental disambiguation) ° 


他 们 主张 ， 当 出 现 歧义 时 ,不 要 匆忙 地 作出 评价 ， 等 到 目 然 语言 
分 析 系 统 中 的 信息 单调 递增 到 可 以 对 这 种 卜 义 进行 判断 时 ， 再 作出 判 
断 ， 从 而 消解 玻 义 。 


在 PT- 结 构 实例 化 过 程 中 ， 由 于 词汇 单元 的 插入 ， 其 信息 也 是 单 
调 递 增 的 ， 因 此 ，PT- 结 构 实 例 化 过 程 也 具有 信息 的 单调 递增 性 ， 我 


们 同样 可 以 采用 渐进 歧义 消解 法 。 在 信息 不 充分 条 件 不 成 熟 时 ， 不 必 
匆忙 地 消解 歧义 ， 等 到 信息 单调 递增 到 足以 满足 各 种 制约 条 件 和 优选 
的 标准 时 ， 才 进行 层 义 的 消解 。 


在 目 然 语 言 处 理 中 ， 同 形 歧义 的 目 动 消解 还 古 一 个 未 彻 改 解决 的 
问题 ， 还 有 行 我 们 做 更 深入 的 探索 。 
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在 目 然 语 言 目 动 剖 析 的 过 程 中 ， 有 必要 保存 一 些 中 间 结 果 以 及 天 
于 结构 分 析 的 某 些 试探 性 的 假设 ， 以 便 为 尔后 的 目 动 剖析 提供 有 用 的 
信息 ， 此 ， 学 者 们 提出 了 “ 良 构 子 串 表 ” (Well-Formed Substring 
Table， 简 称 WFST) 与 “ 线 图 ”。 本 章 介绍 与 此 有 关 的 一 些 方法 。 


BT BRERA 


为 了 讨论 的 方便 ， 我 们 在 下 面 描述 短语 结构 语法 时 ， 一 般 只 写 出 
其 重 写 规则 和 单词 中 的 信息 ， 不 再 写 出 短语 结构 语法 中 的 其 他 部 分 。 


如 采 在 英语 中 有 如 下 的 短语 结构 语法 ， 其 重 写 规 则 和 单词 信息 
为 : 


一 一 规则 : 


QS > NP VP 

QVP > IV 

@VP IV PP 

@VP > TV NP 

&VP > TV NP PP 

©VP > TV NP VP (动词 短语 VP 作 补 语 ) 
@ NP > Det N 


® NP ^ Det N PP 
9 PP > PNP 


其 中 ，IV 表 示 不 及 物 动 词 ，TV 表 示 及 物 动 词 。 
— Hi]: 


the: «cat» = Det 
her: «cat» = Det 
her: «cat» = NP 
they: <cat> = NP 
nurses: «cat» = NP 
nurse: «cat? = N 
book: «cat? = N 
travel: «cat? = N 
report: «cat» = N 
report: «cat» - IV. 〈 作 报告 ) 
hear: «cat? = TV 
see: «cat^ = IV 


On: <cat> = Prep 
这 个 短语 结构 语法 可 以 生成 如 下 的 英语 句子 : 


Nurses hear her 
(保育 员 们 听 她 的 话 ) 

The nurses report 
(保育 员 们 做 汇报 ) 


They see the book on the nurses 


(他 们 看 关于 护理 的 书 ) 
They hear her report on the nurses 


(他 们 听 她 的 关于 护理 的 报告 ) 


如 果 对 “They saw the nurses report” X CAFEA ME FAT, 
判定 了 They 为 主语 之 后 ， 其 余部 分 的 搜索 树 如 图 6.1 所 示 (为 简单 计 ， 
用 s 表 示 saw， 用 t 表 示 the， 用 n 表 示 nurses， 用 r 表 示 report) 。 这 一 部 分 
主要 是 分 析 VP: stnr， 根 据 短语 结构 语法 中 的 规则 2, 4, 5, 6， 可 以 形成 
4 个 子 树 : IV: stnr, TV NP: stnr, TV NP PP: stnr, TV NP VP: stnr. 


(a) VP: stnr 


TV: stnr TV NP:stnr TV NP PP: stnr TV NP VP:stnr 


(b) NP PP: tnr 
DN PP: tnr D NPP PP:tnr 
N PP:nr NPPPP:nr 
PP:r PP PP :r 
PNP:r PNP PP:r 


图 6.1 ”搜索 树 中 的 一 个 半 


在 搜索 第 二 个 子 树 VP: stnr 时 ， 主 要 的 力量 用 于 搜索 在 及 物 动 词 
saw 之 后 的 名 词 词组 NP， 从 图 6.1 (a) 中 国 圈 内 的 部 分 可 以 看 出 ， 其 中 
的 一 部 分 搜索 操作 可 表示 为 如 下 的 树 : 


DN PP:tnr 
N PP:nr 


PP-r 


P NP:r 
在 搜索 第 三 个 子 树 TV NP PP: stnr 时 ， 会 产生 如 图 6.1 (b) 中 的 搜 
索 子 树 ， 可 以 看 出 ， 树 的 左边 部 分 与 图 6.1 (a) 圆圈 中 的 树 完全 相 
同 ， 而 这 个 搜索 子 树 的 右边 部 分 ， ae! (a) 圆圈 中 的 树 相 比 ， 只 
是 在 “5 "INI, 多 出 了 一 个 pp 而 已 。 这 意味 着 ， 在 找 查 第 三 个 搜索 
子 树 时 ， 将 要 重复 在 第 二 个 搜索 子 树 所 进行 的 同样 的 搜索 操作 ， 在 找 
eee ne stnr 时 ， 在 “: ”号 之 前 多 出 了 一 个 VP， 
其 余部 分 与 图 6.1 (a) 圆圈 中 的 树 完 全 相同 ， 也 仍然 要 重复 在 第 二 个 
搜索 子 树 中 所 进行 的 同样 的 搜索 操作 。 完全 一 样 的 工作 要 重复 地 进行 
许多 次 ， 这 是 多 么 大 的 浪费 ! 


上 述 例 子 说 明 ， 在 我 们 的 剖析 程序 中 ， 存 在 着 许多 重复 的 、 不 必 
要 的 工作 ， 程 序 往往 会 把 完全 相同 的 工作 ， 一 而 再 、 再 而 三 地 重复 许 
多 次 。 问 题 的 证 结 在 于 : 这样 的 剖析 程序 记 不 住 它 在 前 面 已 经 做 过 什 
么 样 的 操作 。 要 是 剖析 程序 能 记 住 它 前 面 已 经 做 过 的 操作 ， 那 区 可 以 
避免 重复 。 在 上 面 的 例子 中 ， 如 果 我 们 的 剖析 程序 在 搜索 树 中 按 深度 
优先 、 从 左 到 右 的 方式 进行 搜索 ， 那 么 ， 它 在 第 二 个 搜索 子 树 进 行 搜 
索 之 初 ， 将 可 对 于 名 词 词组 “the nurses” 成 功 地 进行 剖析 ， 不 过 ， 由 于 
在 这 个 名 词 词组 的 后 面 还 有 一 个 及 物 动 词 report， 随 着 搜索 的 继续 进 
行 ， 最 后 导致 剖析 在 第 二 个 搜索 子 树 中 的 失败 。 到 析 失 败 了 ， 程 序 也 
束 把 在 剖析 第 二 个 搜索 子 树 过 程 中 所 得 出 过 的 信息 全 部 地 抛弃 了 ， 包 
括 它 在 对 于 名 词 词组 “the nurses” 曾 经 作出 的 成 功 剖 析 的 那些 正确 的 信 
晨 ， 也 一 股 脑 儿 被 抛弃 了 。 这 样 ， 当 天 析 在 第 三 个 搜索 子 树 中 进行 
上 时， 通 到 同样 的 名 词 词组 “the nurses”, Mf HALA, ERS ERI 
析 这 个 名 词 词组 时 所 进行 过 的 一 切 工作 。 


如 果 齐 析 程 序 把 在 成 功 地 分 析 名 词 词 组 “the nurses” 时 的 那些 成 分 
及 其 结构 记录 下 来 ， 例 如 ， 我 们 可 以 记录 下 这 样 一 个 完全 结构 : 


NP VP 
they TV NP 
Saw ja | 
the nurses 


图 6.2 ”完全 结构 


那么 ， 当 前 析 在 第 三 个 搜索 子 树 及 第 四 个 搜索 子 树 中 进行 时 ， 只 需要 
调用 关于 名 词 词组 “the nurses” 的 已 有 的 剖析 结果 即 可 。 这 样 ， 束 可 以 
省 去 许多 重复 的 工作 ， 提 高 剖析 程序 的 效率 。 在 剖析 其 他 的 搜索 子 树 
时 ， 调 用 名 词 词组 "the nurses” 的 剖析 结果 ， 在 另外 一 种 上 下 文 条 件 
下 ， 痢 析 可 能 成 功 ， 也 可 能 再 次 失败 ， 但 不 论 成 功 与 否 ， 已 经 记录 下 
来 的 名 词 词组 *the nurses” 的 各 种 信息 ， 在 谢 析 过 程 中 ， 都 免 去 了 重复 
的 工作 ， 起 了 正面 的 作用 。 因 此 ， 我 们 需要 剖析 程序 能 够 保存 这 样 的 


完全 结构 。 


由 于 我 们 所 编写 的 语法 不 完善 ， 在 自然 语言 剖析 时 ， 有 了 时 会 过 到 
一 些 形 式 上 不 合格 的 输入 句子 。 例 如 ， 在 英语 中 ， 

The nurses book her travel 
这 个 输入 句子 ， 就 不 符合 本 章 开 始 时 我 们 提出 的 那个 短语 结构 语法 。 
因为 在 这 个 语法 中 ，book 只 注 明 了 <cat>=N， 只 能 看 成 一 个 名 词 ， 如 
果 把 book 只 看 成 名 词 ， 那 么 ， 这 个 输入 句子 只 能 剖析 为 一 个 树 的 序 
列 ， 而 不 能 形成 一 个 完整 的 树 形 图 ， 这 是 一 种 不 完全 结构 。 如 图 6.3 所 
不 o 


NP N 


NP 
P d ET 
Det N Det N 
| | | | 


the nurses book her travel 
图 6.3 ”不 完全 结构 〈 树 的 序列 ) 


在 目 然 语言 剖析 时 ， 或 者 由 于 拼写 的 错误 ， 或 者 由 于 词典 中 得 不 
到 有 关 的 单词 ,或 者 由 于 其 他 的 非常 规 输入 ， 常 第 会 出 现 这 样 的 情 
况 ， 产 生 不 完全 结构 。 


目前 ， 学 者 们 正在 讨论 目 然 语言 计算 机 处 理 系统 的 鲁 棒 性 
(robustness) 问题 。 鲁 棒 性 就 是 从 失败 中 目 动 恢复 的 能 力 ， 也 就 是 所 
谓 的 “ 软 失 败 ” (soft-fail) 。 一 个 自然 语言 处 理 系统 在 遇 到 各 种 非常 规 
的 输入 时 ， 能 够 调用 其 他 知识 或 备用 机 制 来 做 出 适当 反应 ， 给 出 部 分 
剖析 结果 ， 留 待 将 来 作 进 一 步 的 处 理 ， 都 是 鲁 棱 性 的 表现 。 在 一 个 具 
有 和 鲁 棒 性 的 目 然 语言 处 理 系 统 中 ， 在 句法 分 析 时 保存 住 这 些 非常 规 的 
输入 ， 而 不 是 简单 地 宜 布 剖析 失败 ， 等 到 语义 分 析 或 语 用 分 析 时 再 来 
进一步 解决 它 ， 因 此 ， 我 们 应 该 设法 使 得 剖析 程序 有 保持 这 种 非常 规 
输入 的 能 力 ， 并 能 表示 不 完全 结构 。 


男 外 ， 由 于 目 然 语言 中 具有 大 量 的 潜在 收 义 结构 ， 当 潜在 歧义 结 
构 实 例 化 为 现实 的 卜 义 结构 的 时 候 ， 剂 析 时 殊 会 得 出 两 种 不 同 的 结 
构 。 例 如 ， 


They hear the report on travel 


这 个 英语 句子 ， 可 以 理解 为 “他 们 听 关 于 旅行 的 报告 ?， 也 可 以 理解 
为 “他 们 在 旅行 中 听 报 告 "， 其 结构 如 图 6.4 所 示 : 


S 
NP VP NP VP 
a | 
they TV NP they TV NP PP 
NE abs | 
hear Det N PP hear Det N onthe travel 
iu "i on the travel the report 


图 6.4 ”歧义 结构 


因此 ， 副 析 程 序 应 该 具有 保存 歧义 结构 的 功能 ， 应 该 可 以 表示 歧 
义 结构 。 


在 目 然 语 言 处 理 中 ， 采 用 “ 民 构 子 串 表 ?” 来 解决 这 些 问 题 。 在 民 构 
TERP, 个 子 串 都 是 在 结构 上 合格 的 ， 因 而 也 都 是 恨 构 的 ， 但 
征 这 些 恨 构 子 溃 形 成 的 整个 结构 不 一 定 是 完全 的 ， 这 些 民 构 子 串 甚 至 
不 能 结合 为 整个 的 结构 ， 它 们 只 是 形成 一 个 表 (table) ， 因 此 恨 构 子 
串 表 可 以 表示 完全 结构 ， 也 可 以 表示 不 完全 结构 ， 还 可 以 表示 收 义 结 
构 。 这 样 一 来 ， 民 构 子 串 表 束 能 够 把 误 析 过 程 中 那些 在 局 部 上 民 构 的 
中 间 绪 构 保 存 下 来 ， 不 至 于 因为 它们 不 能 形成 完全 结构 而 轻易 地 把 它 
们 抛弃 ， 避 免 了 旗 析 过 程 中 的 浪费 。 


民 构 子 串 表 用 数 子 0 和 n 分 别 表示 符号 串 的 站 和 尾 ， 而 在 这 个 符号 
捉 中 所 包含 的 词 ， 则 从 左 到 右 分 别 用 数字 1 到 n-1 来 表示 ， 这 样 ， 民 构 
子 串 表 便 能 告诉 我 们 ， 在 i 和 j 两 个 点 之 间 〈0si<j<n) ， 存 在 着 一 些 什 
么 样 的 范畴 标记 。 民 构 子 串 表 就 古 一 个 有 同 的 非 成 圈 图 ， 所 谓 “ 有 
I^, ets CN TA ENA, Arse sal”, zeta PA 
能 包含 环 路 。 在 这 个 有 辣 的 非 成 圈 图 中 ， 首 结 点 标 以 9，n 是 符号 串 中 
的 词 数 ， 弧 上 的 标记 是 句法 范畴 和 词 。 


图 6.5, 6.6, 6.7 束 是 这 样 的 民 构 子 串 表 ， 它 们 可 以 分 别 表示 我 们 上 
面 所 提 到 的 那 三 种 情况 : 表示 完全 结构 ， 表 示 不 完全 结构 ， 表 示 层 义 
结构 。 


图 6.5 ”表示 完全 结构 的 
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表 并 不 能 帮助 我 们 记 住 前 面 所 作 过 的 假设 和 猜测 ， 也 不 能 让 我 们 了 解 
到 误 析 的 目标 ， 也 束 古 说 ， 民 构 子 串 表 只 能 够 表示 结构 的 某 些 事实 ， 
但 并 不 能 表示 关于 结构 的 假设 、 猜 测 和 目标 。 


我 们 来 观察 下 面 的 图 6.8。 


== 
5 需要 有 VP ?VP >VNP 


图 6.8 ”目标 和 假设 的 表示 


在 这 个 图 中 ， 力 图 表示 出 剖析 过 程 中 的 有 关 分 析 状 况 ， 主 要 包括 
如 下 几 项 : 


一 一 这 个 符号 串 由 序列 NP 和 VP 组 成 ; 


剖析 程序 正 试图 把 S 分 析 为 序列 NP VP， 并 证 实 这 样 的 假设 ; 


剖析 程序 业已 证 实 从 起 始点 到 第 二 个 点 之 间 的 弧 上 的 NP 与 序 
列 NP VP 中 的 NP 是 等 同 的 ; 


剖析 程序 还 需要 证 实 序列 y NP 可 以 归结 为 VP。 


易于 看 出 ， 民 构 子 串 表 可 以 表示 出 其 中 的 一 部 分 分 析 状 况 ， 但 
是 ， 为 了 全 面 地 表示 分 析 状 况 ， 还 需要 进一步 指出 副 析 过 程 中 的 某 些 
假设 ， 而 民 构 子 串 表 的 数据 结构 不 可 能 表示 出 这 样 的 假设 。 为 此 ， 我 
们 有 必要 对 数据 结构 作 两 点 修改 : 


一 一 在 有 疝 图 中 ， 不 闻 格 要 求 所 有 的 弧 都 是 不 成 圈 的 ， 容 许 从 某 
个 点 出 发 ， 中 间 不 经 过 其 他 的 点 ， 又 直接 重新 返回 这 个 点 的 圈 (x 
JI) 出 现 , 但 是 ， 不 容许 从 某 个 点 出 发 ， 中 间 经 过 其 他 的 点 ， 才 返回 
这 个 点 的 圈 出 现 。 在 图 6.9 中 ， 容 许 出 现 图 6.9 (a) 中 的 圈 ， 不 容许 出 
现 图 6.9 (b) 中 的 圈 。 


(a) (b) 


图 6.9 (a): 容许 出 现 的 圈 ， (b): 不 容许 出 现 的 圈 


一 一 弧 上 的 标记 不 仅 可 以 是 简单 的 范畴 ， 而 且 还 可 以 是 语法 规 
Ji] » WARS > NP VP 是 语法 中 的 一 个 规划， 那么 ， 下 面 儿 个 加 了 圆 点 


(dot) 的 规则 都 可 以 用 作 弧 上 的 标记 : 


S > .NP VP 
S 一 NP.VP 
S > NP VP. 


EIRE, [Be ARRE RETEA, ETE 
序 检验 过 的 当前 规则 所 涉及 的 假设 延伸 的 范围 。 这 种 加 园 点 的 规则 告 
诉 我 们 ， 什 么 是 规则 中 检验 过 的 ， 什 么 是 规则 中 有 竺 检验 的 。 


规则 “S + .NP VP” 被 标记 在 从 某 一 点 出 发 又 回 到 该 点 的 弧 上 ， 这 
个 弧 恰 恰 形 成 一 个 自封 闭 的 圈 。 它 表示 假设 S$ 9 NP VP 还 没有 被 检 
验 ， 也 没有 被 证 实 。 


规则 “S > NPVP” 所 标记 的 弧 的 下 方 ， 应 该 可 以 覆盖 另 一 个 标记 
为 NP > <category> 的 弧 ， 它 说 明 假 设 的 第 一 部 分 ( 即 出 现 第 一 个 NP 
的 部 分 ) 已 被 确认 ， 而 假设 的 第 二 部 分 ( 即 VP) 还 有 待 检验 和 证 实 。 


规则 “S > NP VP” 说 明 ， 假 设 $ -> NP VP 已 经 经 过 检验 ， 并 且 已 
经 被 证 实 。 


经 过 上 述 修 改 的 良 构 子 串 表 可 以 描述 谢 析 过 程 中 所 出 现 的 各 种 假 
设 ， 比 一 般 的 良 构 子 串 表 具有 更 强 的 功能 ， 我 们 把 经 过 这 样 修 改 的 良 
构 子 串 表 叫做 活性 线 图 (active chart) ， 简 称 线 图 (chart) 。 线 图 中 
的 点 ， 叫 做 顶点 (vertex) ， 线 图 中 的 弧 ， 叫 做 边 (edge) ， 表 示 尚 未 
被 证 实 的 假设 的 边 ， 叫 做 活性 边 (active edge) ， 表 示 已 被 证 实 的 假设 
的 边 ， 叫 做 非 活 性 边 (inactive edge) ， 例 如 ， 标 记 为 “C > 
<category>” 的 边 束 是 非 活性 边 。 


mM BL, Ae RRM FRNA, Baba EAE 
表示 出 来 。 


图 6.10, 6.11, 6.12 中 的 线 图 ， 分 别 是 由 图 6.5, 6.6, 6.7 中 的 恨 构 子 串 
表 改 进而 成 的 ， 线 图 中 的 边 全 部 都 是 非 活 性 边 。 


S 2NP VP. 


VP TV NP. 


NP Det N. 


NP >Det N NP Det N. 


图 6.11 表示 不 完全 结构 的 线 图 


S >NP VP 


VP_>TV NP 


NP_>NP PP 


VP_>TV NP PP 


PP_>Prep NP 


图 6.12 ”表示 歧义 结构 的 线 图 


线 图 还 可 以 表示 民 构 子 串 表 不 能 表示 的 目标 和 假设 。 图 6.13 中 的 线 图 
可 表示 图 6.8 中 未 能 表示 出 来 的 目标 和 假设 等 。 


VP >.VNP 


S_>NP.VP 


图 6.13 ”表示 目标 和 假设 的 线 图 


图 6.13 的 线 图 中 有 两 个 活性 边 。 一 个 活性 边 上 的 标记 为 S > 
NP.VP， 它 表示 在 第 一 个 顶点 和 第 二 个 顶点 之 间 检 验 假设 S$ > NP VP 
时 ， 已 经 证 实 S > NP VP 中 的 第 一 部 分 NP， 但 还 未 证 实 第 二 部 分 VP 。 
另 一 个 活性 边 是 VP > .VNP， 这 是 一 个 从 第 二 个 顶点 出 发 又 返回 到 第 


二 个 顶点 的 圈 ， 它 表示 对 于 假设 VP - V NP， 还 未 进行 检验 ， 也 未 得 
到 证 实 。 


我 们 可 以 把 线 图 表示 为 结构 的 集合 ， 集 合 中 的 每 一 个 结构 应 该 具 
有 如 下 的 属性 : 


起 点 : «START» = ... 某 个 整数 ..…. 
终点 : «FINISH» = ... 某 个 整数 ... 
标记 : <LABEL> = ... 某 个 范畴 .…. 
已 证 实 部 分 : «FOUND? = ... 某 个 范畴 序列 ... 
待 证 实 部 分 ，<TOFIND> = ... 某 个 范畴 序列 ..…. 


其 中 ，<LABEL> 是 加 圆 点 规则 的 左 部 LHS，<FOUND> 是 加 圆 点 
规则 的 右 部 RHS 中 国 点 左 侧 的 范畴 序列 ， 它 是 RHS 中 已 经 被 检验 和 证 
实 的 部 分 ，<IOFIND> 是 加 圆 点 规则 的 右 部 RHS 中 国 点 右 侧 的 范畴 序 
列 ， 它 是 RHS 中 尚未 被 检验 和 证 实 的 部 分 。 当 一 个 边 上 的 TOFIND 的 
值 为 空 序列 时 ， 则 该 边 为 非 活性 边 。 


有 时 ， 我 们 可 以 用 五 元 组 来 记录 上 述 属 性 e 
例如 ， 五 元 组 <0, 2, S ^ NP.VP> 表 示 如 下 的 活性 边 : 


<START> = 0 
«FINISH» = 2 
«LABEL» = S 
<FOUND> = <NP> 
<TOFIND> = <V P> 


五 元 组 <3, 5, NP > Det N.> 表 示 如 下 的 非 活性 边 : 


<START> = 3 
«FINISH» = 5 
«LABEL»? = NP 
«FOUND? = «Det, N> 
<TOFIND> =< > 
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析 过 程 中 ， 线 图 的 一 部 分 由 如 下 的 边 组 成 : 


| <0, 2, S^ NP.VP>, 
<2, 3, VP > TV.NP PP>, 
<3, 5, NP > DetN.», 


<5, 8, PP > PrepNP.> } 


些 边 可 以 图 示 为 图 6.14: 


S>NPVP VP >TVNPPP NP >DetN. PP_>Prep NP. 


图 6.14 ”部 分 线 图 示例 


为 了 清楚 起 见 ， 图 6.14 中 省 略 了 线 图 中 的 一 些 边 ， 只 标 出 了 我 们 
所 要 讨论 的 边 ， 其 中 ， 前 两 个 边 是 活性 边 ， 后 两 个 边 是 非 活性 边 。 非 
活性 边 中 ， 第 一 个 表示 名 词 词组 ， 第 二 个 表示 介词 词组 ， 它 们 都 是 在 
剖析 过 程 中 已 经 被 检验 并 且 被 证 实 的 。 活 性 边 中 ， 第 一 个 表示 关于 名 
子 的 假设 : 句子 中 已 经 找到 了 名 词 词组 ， 正 要 查找 动词 词组 ;第 二 个 
表示 天 于 动词 词组 的 假设 : Se Rea oreo cee E. 
找 名 词 词组 以 及 跟 在 这 个 名 词 词组 后 面 的 介词 词组 。 


我 们 来 研究 第 一 个 活性 边 ， 如 果 在 顶 扣 2 我 们 能 找到 一 个 从 这 个 顶 
扩 开 始 的 非 活性 边 ， 而 且 这 个 非 活 性 边 是 个 动词 词组 ， 那 么 ， 束 可 以 
满足 假设 的 条 件 。 但 事实 上 我 们 没有 找到 这 样 的 非 活性 边 。 当 然 , 我 
们 也 可 以 假设 存在 着 这 样 的 非 活 性 边 ， 但 是 ， 在 这 样 的 假设 尚未 得 到 
证 实 之 前 ， 我 们 不 能 正确 地 分 析 第 一 个 活性 边 。 


在 这 种 情况 下 ， 我 们 只 好 将 注意 力 转 到 第 二 个 活性 边 上 。 从 规则 
VP > TV.NP PP 可 知 ， 我 们 假设 存在 着 一 条 从 第 三 个 顶点 开始 的 非 活 
性 边 ， 而 且 这 个 非 活性 边 上 标记 中 的 <LABEL> 为 名 词 词组 ， 我 们 马上 
就 找到 了 这 样 的 非 活 性 边 ， 其 标记 为 “NP > Det N.”， 这 说 明 ， 我 们 关 
于 动词 词组 的 假设 至 少 是 部 分 地 得 到 了 证 实 。 为 此 ， 我 们 在 线 图 上 加 
上 一 个 新 的 活性 边 ， 其 标记 为 <2, 5, VP > TV NP.PP>， 这 是 关于 动词 
词组 的 进一步 假设 : 假设 存在 着 一 条 从 第 五 个 顶点 开始 的 非 活性 边 ， 
这 个 非 活 性 边 上 的 标记 中 的 <LABEL> 为 介词 词组 ， 我 们 也 找到 了 这 样 
的 韭 活性 边 ， 其 标记 为 “PP > Prep NP”， 这 说 明 ， 我 们 关于 动词 词组 
的 假设 得 到 了 进一步 的 证 实 。 为 此 ， 我 们 在 线 图 上 再 加 上 一 个 新 的 非 
活性 边 ， 其 标记 为 <2, 8, VP > NP PP.>， 这 样 一 来 ， 我 们 的 线 图 又 增 
加 了 两 条 边 ， 边 的 集合 进一步 增加 为 ; 


| «0, 2, S^ NP.VP>, 


«2, 3, VP 5 TV.NP PP», 
«2, 5, VP 5 TV NP.PP>, 
«2, 8, VP 5 TV NP PP.>, 
«3, 5, NP » DetN ,>， 

<5, 8, PP > PrepNP.> } 


如 果 回 到 顶点 0， 我 们 可 以 看 到 ， 从 顶点 0 到 顶点 2， 存 在 着 一 条 活 
性 边 ， 其 标记 为 “$ > NP.VP”， 从 顶点 2 到 顶点 8， 存 在 着 一 条 非 活 性 


边 ， 其 标记 为 “VP > TV NP PP”， 因 此 ， 我 们 又 可 再 加 上 一 条 新 的 非 
活性 边 <0, 8, S > NP VP.>， 我 们 的 线 图 如 图 6.15 所 示 : 


S>NPVP VP_>TV.NP PP NP >DetN. PP_>Prep NP. 


VP_>TV NP.PP 


VP_>TV.NP PP 


i. i 增加 了 新 边 的 线 图 示例 


这 时 ， 标 记 为 “S > NP VP2? 的 非 活性 边 横路 在 句子 的 起 点 和 终 扣 
Ziel, UH, Pre SRE ERMA, aT AH o 


昌 然 还 可 能 存在 着 其 他 的 剖析 结果 ， 但 我 们 上 述 的 剖析 结果 至 少 
征 其 中 成 功 的 一 个 。 


从 上 面 使 用 线 图 的 剖析 过 程 可 以 看 出 ， 如 有 果 一 个 活性 边 遇 到 了 一 
个 非 活性 边 ， 而 且 ， 这 个 非 话 性 边 标 记 上 的 范畴 满足 活性 边 的 要 求 ， 
那么 ， 束 可 以 在 线 图 中 加 上 一 条 新 的 边 ， 这 条 边 横 跨 在 活性 边 和 非 活 
性 边 上 。 美 国 计 算 语 言 学 家 马丁 ' 凯 依 把 这 条 规则 称 为 “ 线 图 剖析 的 基 
本 规则 ” (fundamental rule) ， 可 以 稍微 严格 地 表述 如 下 : 


线 图 谢 析 基本 规则 ; 


如 果 在 线 图 中 含有 活性 边 <i, j, A 5 W1.B W2> 和 非 活 性 边 <j, k, B 
> w3.>， 其 中 ，A 和 B 是 范畴 ，W1, W2 和 W3 (可 能 为 空 ) 是 范畴 序列 
或 词 ， 那 么 ， 在 线 图 中 加 一 条 新 的 边 <i k, A > W1B.W2>。 


线 图 剖析 基本 规则 中 没有 明确 说 明 新 的 边 是 活性 的 还 是 非 活 性 
的 ， 因 为 这 完全 取决 于 W2， 如 果 W2 不 为 空 ， 那么 ， 新 的 边 就 是 活性 
边 ， 如 果 W2 为 空 ， 那 么 ， 新 的 边 殉 是 非 活性 边 。 在 上 述 的 剖析 过 程 
中 ， 当 活性 边 与 非 活 性 边 相 过 时 ， 我 们 曾经 三 次 都 加 了 新 的 边 ， 这 足 
以 说 明 ， 这 个 基本 规则 在 线 图 剖析 中 是 非常 重要 的 。 


线 图 副 析 中 的 男 一 个 重要 问题 是 线 图 的 启动 问题 。 


我 们 显然 不 能 把 上 述 的 基本 规则 用 于 不 包含 边 的 线 图 上 ， 为 了 使 
用 基本 规则 ， 在 线 图 中 至 少 要 有 一 条 活性 边 和 一 条 非 活 性 边 。 在 具体 
的 谢 析 过 程 中 ， 为 了 启动 一 个 线 图 ， 我 们 可 以 通过 查 词 典 的 办 法 ， 把 
单词 在 词典 中 的 有 关 范 畴 的 信息 直接 记录 到 线 图 的 边 上 ， 从 而 形成 非 
活性 边 。 例 如 ， 当 分 析 句 子 “They see her report on the nurses” 时 ， 根 据 
本 下 开始 时 所 述 的 那个 短语 结构 语法 ， 可 以 把 各 个 单词 所 属 词类 或 词 
组 的 信息 记录 到 线 图 上 ， 从 而 局 动 线 图 。 


例如 ， 根 据 规则 they: <cat>=NP， 可 以 写 出 标记 “NP > they.” 记 在 
非 活 性 边 上 ; 根据 规则 see: <cat>=TV， 可 以 写 出 标记 “TV > see.” 记 
在 非 活 性 边 上 ; 根据 规则 her: <cat>=Det 和 规则 her: <cat>=NP， 可 以 
分 别 写 出 标记 “Det > her” 和 标记 “NP > her.” 分 别 记 在 两 条 非 活 性 边 
上 ，... 等 等 . 如 图 6.16 所 示 。 


NP >they. TV_>see. Det_>her.TV_>report. Prep_>on. Det_>the. N_>nurses 


NP_>her. N_>report. 


NP >nurses. 


图 6.16” 线 图 的 启动 


在 图 6.16 中 ， 有 时 在 相 邻 的 两 个 顶点 之 间 会 出 现 一 条 以 上 的 非 活 
性 边 ， 这 是 由 于 某 些 词 的 兼 类 所 引起 的 。 


给 线 图 作出 了 非 活 性 边 只 是 启动 的 第 一 个 步 台 ， 在 这 种 情况 下 ， 
剖析 还 不 能 开始 ， 我 们 还 需要 造 出 新 的 活性 边 ， 才 能 使 用 线 图 副 析 的 
基本 规则 。 


下 面 ， 我 们 提出 一 个 简单 的 办 法 来 造 出 新 的 活性 边 :， 每 当 我 们 在 
线 图 中 加 一 条 帝 有 标记 C 的 非 活 性 边 时 ， 就 从 同一 顶点 开始 ， 加 上 一 
条 没有 标记 的 (HU) 活性 边 ， 而 对 于 语法 中 以 成 分 C 作 为 它 的 最 左 
子 结 点 的 每 一 条 规则 ， 就 可 以 在 线 图 中 没有 标记 的 (SEA) 活性 边 
上 ， 加 上 反映 该 规则 的 标记 ， 并 且 ， 这 条 活性 边 从 同一 顶点 出 发 ， 在 
同一 顶点 结束 ， 从 而 找 查 什么 是 它 的 组 成 成 分 ， 这 样 ， 束 可 以 调用 语 
法 中 的 规则 来 进行 目 故 同上 的 旗 析 。 这 种 目 底 同上 调用 规则 的 集 略 ， 
可 归纳 如 下 。 


EURIR]. EAEI: 


如 果 我 们 在 线 图 中 加 一 条 形式 为 <i, j, C> W1.> 的 非 活 性 边 ， 那 
么 ， 对 于 语法 中 每 一 条 形式 为 B ^ CW2 的 规则 ， 在 线 图 上 加 一 条 形式 
为 <j, j, B .CW2> 的 活性 边 。 这 就 是 说 ， 如 果 在 顶点 i 与 j 之 间 有 非 活 


性 边 *C > W1.”， 而 语法 中 有 规则 B > CW2， 则 在 顶点 i 出 发 ， 在 顶点 
ji 结 束 ， 加 上 一 条 活性 边 *B > CW2.”， 如 图 6.17 所 示 。 


B_>.CW2 


C -Wl. 


图 6.17 规则 的 调用 


例如 ， 在 图 6.16 的 项 后 0, 1, 2 之 间 ， 根 据 前 述 的 短语 结构 语法 ， 使 
用 上 述 的 目 底 同上 规则 ， 可 作出 如 下 的 话 性 边 : 


S SNP VP. VP —.TV NP PP 


TV see. 


VP >.TV NP VP 


图 6.18 把 自 底 向 上 规则 用 于 启动 后 的 线 图 


当 用 添加 许多 非 活性 边 的 方法 来 局 动 线 图 时 ， 如 果 使 用 这 样 的 目 
压 向 上 规则 ， 束 可 以 在 线 图 上 深 加 出 许多 的 活性 边 ， 这 样 一 来 ， 束 可 
以 使 用 基本 规则 开始 进行 句子 的 剖 析 了 。 可 见 ， 目 底 和 同上 规则 和 基本 
规则 使 得 我 们 可 以 发 现 各 种 可 能 的 分 析 结 


目 顶 同 下 副 析 调用 规则 的 策略 如 下 : 


(1) 在 启动 时 ， 对 于 语法 中 一 个 形式 为 A > W 的 规则 ， 如 果 其 
中 的 A 是 一 个 可 以 横 跨 整个 线 图 的 范畴 〈 表 示 句 子 的 S 就 是 这 样 的 范 
E) ， 那 么 ， 就 在 线 图 上 加 活性 边 <0, 0, A — .W>， 从 而 启动 句子 $ 的 
EISE Pr 。 


(2) 如 果 我 们 在 线 图 上 加 了 活性 边 <i j,C wiBW2», ABA, 
对 于 语法 中 的 每 一 个 形式 为 B 9 W 的 规则 ， 在 线 图 上 加 活性 边 <i, i, B 
= .W>， 从 而 启动 成 分 B 的 处 理 。 


使 用 第 一 条 规则 可 以 使 我 们 在 线 图 中 的 第 一 个 顶点 上 加 上 一 条 以 
S 为 标记 堪 部 的 活性 边 ， 从 而 使 剖析 程序 目 顶 向 下 地 开始 工作 。 


这 就 是 说 ， 如 果 在 语法 中 有 以 S 为 左 部 的 规则 (S=A) ， BLA, W 
可 以 在 线 图 中 的 第 一 个 顶点 上 ， 加 上 一 条 活性 边 <0, 0, $ + .W» » 


例如 ， 在 图 6.16 的 顶点 0, 1, 2 之 间 ， 根 据 前 述 的 短语 结构 语法 ， 可 
以 做 出 如 下 的 活性 边 : 


S_>NP VP. 


NP >they. TV >see. 


QU 
图 6.19 把 自 顶 向 下 规则 (1) 用 于 启动 后 的 线 图 


由 于 语法 中 存在 以 $ 为 左 部 的 规则 $ ~ NP VP, mH, RIHO, 
1 两 点 之 间 的 非 活性 边 “NP > they.” 上 标记 的 左 侧 NP， 恰 好 与 规则 S -~ 
NP VP 中 的 NP 相同 ， 所 以 ， 就 在 线 图 上 加 活性 边 <0, 0, S > .NP VP», 
这 样 ， 束 可 以 从 S 开 始 ， 进 行 自 顶 癌 下 的 剖析 。 


例如 ， 在 图 6.16 的 顶点 0, 1 2 之 间 ， 在 加 了 第 一 条 活性 边 “S-».NP 
VP” 之 后 (这 时 ， 活 性 边 <i,j, C > W1.B W2> 的 i=0, j=0, C=S, W1=@， 
B=NP, W2-VP) ， 句 子 的 自 顶 向 下 剖析 就 启动 了 。 这 时 ， 由 于 语法 中 
还 有 以 NP 为 左 部 的 规则 NP > DetN 和 NP > Det N PP， 所 以 ， 还 可 以 
在 线 图 上 加 活性 边 <0, 0, NP > .Det N> 和 <0, 0, NP > .Det N PP» (这 
时 ， 活 性 边 <ii B > .W1> 的 i=0, j=0, B=NP, W=Det N 或 Det N PP) , 
从 而 启动 NP 的 剖析 。 如 图 6.20 所 示 。 


S—.NP VP 


TV-see. 


NP 一 .Det N 


NP 一 .DetN PP 
图 6.20 ”把 自 顶 向 下 规则 (20 用 于 启动 后 的 线 图 


在 用 线 图 来 剖析 句子 的 过 程 中 ， 如 果 诡 加 的 边 太 多 ， 将 会 降低 剖 
析 的 效率 ， 因 为 边 越 多 ， 剖 析 的 工作 量 越 大 ， 剖 析 的 效率 也 就 越 低 。 
线 图 中 没有 用 的 非 活性 边 和 活性 边 只 会 使 剖析 程序 劳 而 无 功 。 


当 在 线 图 中 加 了 一 条 非 活 性 边 时 ， 为 了 使 用 基本 规则 ， 束 要 去 找 
查 一 条 活性 边 ， 并 要 求 该 活性 边 中 含有 非 活性 边 起 点 上 的 有 关 范 晓 ; 
当 在 线 图 中 加 了 一 条 活性 边 时 ， 为 了 使 用 基本 规则 ， 束 要 去 找 查 一 条 
非 话 性 边 ， 并 要 求 这 条 非 活性 边 中 的 第 一 个 范畴 是 活性 边 所 要 求 的 ; 
当 在 线 图 中 加 了 一 条 非 活 性 边 时 ， 为 了 应 用 目的 同上 规则 ， 束 要 在 所 
有 的 语法 规则 中 找 查 规则 右 部 的 第 一 个 范畴 ， 并 要 求 该 范畴 与 边 上 的 
范畴 相同 ;， 当 在 线 图 中 加 了 一 条 非 活 性 边 时 ， 为 了 应 用 目 顶 向 下 规 
则 ， 台 要 在 所 有 的 语法 规则 中 进行 找 碍 ， 看 一 看 规则 的 左 部 是 不 是 边 
所 要 求 的 第 一 个 范畴 ， 如 此 等 等 。 每 当 找 查 这 些 有 特殊 要 求 的 边 的 时 
候 ， 程 序 要 对 线 图 中 所 有 的 边 进行 搜索 。 因 此 ， 为 了 提高 剖析 的 工作 
效率 ， 如 何 合理 而 巧妙 地 设计 线 图 ， 使 它 的 边 足 够 我 们 使 用 ， 而 又 不 


至 于 泛滥 成 灾 ， 真 正 做 到 少 而 精 ， 是 线 图 分 析 时 应 该 重视 的 一 个 极为 
重要 的 问题 。 
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第 七 章 ”复杂 特征 与 合 一 运算 


当代 计算 语言 学 发 展 的 重要 特征 之 一 ， 是 在 各 种 自然 语言 处 理 系 
统 中 ， 普 人 遍地、 深入 地 使 用 复杂 特征 与 合 一 运算 。 本 革 详 细 讨 论 复 区 
特征 与 合 一 运算 的 基本 原理 ， 并 介绍 我 国学 者 在 这 方面 的 研究 情况 。 


第 一 六 ”单一 特征 与 复杂 特征 


在 短语 结构 语法 中 描述 一 个 语言 成 分 〈 词 、 词 组 ) 时 ， 是 使 用 单 
一 特征 来 进行 的 ， 在 对 应 于 短语 结构 语法 的 树 形 图 中 ， 每 一 个 结 点 只 
有 一 个 特征 作为 标记 与 之 对 应 。 使 用 单一 特征 时 ， 语 言 成 分 的 描述 比 
较 人 简单 ， 但 规则 的 描述 束 比 较 复 杂 ， 而 且 规 则 的 数量 也 比较 多 。 


例如 ， 我 们 使 用 单一 特征 ， 提 出 如 下 的 短语 结构 语法 来 摘 述 法 语 
(French) 的 一 个 片断 。 


规则 : 


1.S ^ NPa VPa 
2.9 > NPb VPb 
3. S > NPc VPc 
4.S > NPd VPd 
5. S > NPe VPe 


其 中 ， 构 成 句子 S 的 NP 与 VP 之 间 有 着 对 应 关系 ， 它 们 在 性 、 数 、 


人 称 等 方面 要 保持 一 致 (agreement) 
单词 : 


je: <cat> = NPa 

tu: <cat> = NPb 

elle: <cat> = NPa 
nous: <cat> = NPc 
vous: <cat> = NPd 
ils: <cat> = NPe 
tombe: «cat» = VPa 
tombes: «cat» - VPb 
tombons: «cat» = VPc 
tombez: <cat> = VPd 


tombent: «cat» = VPe 


其 中 ，je (R) , tu (你 ) , elle (5) , nous (RiT) , 
(你 们 ) , ils (他 们 ) 等 人 称 代 词 要 求 的 动词 形式 不 完全 相同 。 


例如 ， 动 词 tobmber (跌倒 ) 与 je, elle 连 用 时 其 形式 为 tombe: 


je tombe (我 跌倒 ) 
elle tombe (她 跌倒 ) 


vous 


因此 ， 在 语法 中 ， 我 们 把 js 和 elle 的 范畴 定 为 NPa: «cat» = NPa, 


而 动词 ttmbe 的 范畴 也 相应 地 定 为 VPa: «cat» = VPa. 


动词 tomber 与 包 过 用 时 ， 其 形式 为 tombes: 


tu tombes (你 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 tu 的 范畴 定 为 NPb: «cat? =NPb， 而 动 
词 totmbes 的 范畴 也 相应 地 定 为 VPb: «cat» = VPb. 


动词 tomber 与 nous 连 用 时 ， 其 形式 为 tombons: 
nous tombons (我 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 nous 的 范畴 定 为 NPc: «cat? = NPc， 而 
动词 tombons 的 范畴 也 相应 地 定 为 VPc: «cat» = VPc. 


动词 tomber 与 vous 连 用 时 ， 其 形式 为 tombez: 
vous tombez (你 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 vous 的 范畴 定 为 NPd: <cat> = NPd， 而 
动词 tombez 的 范畴 也 相应 地 定 为 VPd: «cat» = VPd. 


动词 tomber 与 ils 连 用 时 ， 其 形式 为 tombent: 
ils tombent (他 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 ils 的 范畴 定 为 NPe: <cat> = NPe， 而 动 
词 tombent 的 范畴 也 相应 地 定 为 VPe: «cat» = VPe. 


这 样 一 来 ， 语 法 规则 也 就 相应 地 有 五 条 : 


S— NPa VPa 
S ^ NPb VPb 
S 一 NPc VPc 


S ^ NPd VPd 
S 5 NPe VPe 


然而 ， 从 语言 现象 的 实质 上 来 说 ， 这 五 条 规则 涉及 的 都 是 同样 的 
语法 结构 ， 用 五 条 规则 来 描述 同样 的 语法 结构 ， 真 是 极 大 的 浪费 | 


如 果 我 们 还 要 进一步 描述 更 多 的 法 语 语法 现象 ， 如 未 完成 过 去 时 
je tombais (我 跌倒 了 ) 
和 
elle tombait (她 跌倒 了 ) ， 


这 时 ，je 和 elle 的 相应 动词 形式 变 得 不 同 了 ， 我 们 势必 叉 要 增加 新 的 规 
i| e 

如 果 我 们 再 进一步 描述 复合 过 去 时 

elle est tombée (她 跌倒 过 了 ) ， 
由 于 elle 是 阴性 ，tomber 的 过 去 时 也 要 用 阴性 形式 tombke， 而 且 tombke 
的 前 面 还 要 加 上 助动词 itre 的 第 三 人 称 单 数 形 式 est， 这 样 ， s 


法 规则 束 要 变 得 更 加 复杂 了 。 可 见 ， 用 单一 特征 的 办 法 来 描述 语言 
象 会 使 语法 规则 变 得 非常 之 复杂 。 


为 了 避免 这 种 过 于 复杂 的 规则 ， 我 们 提出 如 下 的 语法 来 描写 同样 
的 语法 现象 。 


规则 : 


So NP VP 
«NPper» = <VPper> 


«NPnum » - «VPnum » 


其 中 ，per 表 示人 称 ，num 表 示 数 。<NPper> = <VPper> 表 示 NP 的 
人 称 与 VP 的 人 称 一 致 ，<NPnum> = <VPnum> 表 示 NP 的 数 与 VP 的 数 一 
$i o 


单词 : 


je: <cat> = NP 
<per> = 1 


<num> = sing 


其 中 ，1 表 示 第 一 人 称 ，sing 表 示 单 数 (singular) ° 


tu: <cat> = NP 
<per> = 2 
<num> = sing 
elle: <cat> = NP 
<per> = 3 
<num> = sing 
nous: <cat> = NP 
«per» = 1 


«num» - plur 


其 中 ，2 表 示 第 二 人 称 ，3 表 示 第 三 人 称 ，plur 表 示 复 数 
(plural) 。 


vous: <cat> = NP 


<per> 


lI 
N 


<num> = plur 
ils: <cat> = NP 


<per> 


! 
C9 


«num» - plur 
tombe: «cat» - VP 
«per» = 1 
«num» - sing 
tombe: «cat» - VP 


«per» 


lI 
W 


<num> = sing 


注意 : tombe 的 <per> 可 以 是 1， 又 可 以 是 3 。 


tombes: <cat> = VP 


<per> 2 
<num> = sing 

tombons: <cat> = VP 
«per» = 1 
<num> = plur 


tombez: <cat> = VP 


<per> 


2 
<num> = plur 

tombent: <cat> = VP 
<per> = 3 


<num> = plur 


这 个 语法 与 前 面 的 那个 用 单一 特征 描述 的 语法 的 功能 是 一 样 的 ， 
但 是 ， 它 只 用 了 一 条 规则 ， 比 前 面 那 个 语法 的 规则 简明 得 多 。 不 过 ， 
这 个 语法 对 单词 的 描述 却 比 前 面 的 那个 语法 复杂 ， 单 词 的 描述 不 是 用 
单一 的 特征 ， 而 是 用 复杂 特征 (complex features) 。 可 见 ， 如 果 采 用 
复杂 特征 来 描述 单词 ， 可 以 大 大 地 简化 语法 的 规则 。 


我 们 把 一 个 特征 看 成 是 由 两 部 分 组 成 的 : 一 部 分 叫做 属性 
(attribute) ， 一 部 分 叫做 值 (value) ， 一 个 特征 就 是 由 属性 与 其 值 构 
成 的 “属性 一 值 ” 侦 对 ， 单 一 特征 只 包含 一 个 这 样 的 “属性 一 值 ”* 偶 对 ， 
复杂 特征 则 包含 若干 个 这 样 的 “属性 一 值 * 侦 对 。 因 此 ， 复 杂 特 征 束 可 
以 表示 为 特征 矩阵 (feature matrix) ° 


例如 ， 法 语 的 je (我 ， 这 个 词 的 复杂 特征 可 以 用 如 下 的 特征 矩阵 


来 表示 : 
cat NP 
per l 


num sing 


我 们 还 可 以 用 图 (graph) 来 表示 复杂 特征 。 例 如 ， 法 语 中 je 的 复 
杂 特 征 可 用 图 7.1 中 的 有 辣 图 线 方法 来 表示 : 


cat per num 


NP l plur 


图 7.1 用 有 向 图 线 来 表示 复杂 特征 


这 样 的 图 叫做 * 非 循环 有 辐 图 ”(Directed Acyclic Graph， 简 写 为 
DAG) 。 图 7.1 中 的 图 线 是 有 向 的 ， 因 为 其 中 的 每 一 条 图 线 都 有 方向 
\ 用 箭头 标 出 ) ; 图 7.1 中 的 图 又 是 非 循 环 的 ， 因 为 沿 着 箭头 所 指 的 方 
问 ， 不 人 允许 从 一 个 结 点 出 发 然后 又 返回 到 同一 个 结 点 的 图 线 。 在 非特 
环 有 癌 图 中 ， 图 线 上 的 标记 是 属性 ， 如 cat, per, num 等， 末端 结 点 上 的 
标记 是 原子 值 ， 如 NP, 1, plur, sing 等 。 为 了 叙述 的 方便 ， 我 们 假定 这 些 


原子 值 不 具有 内 部 结构 。 不 过 ， 从 理论 上 说 来 ， 范 畴 中 的 特征 本 身 又 
可 以 是 其 他 的 范畴 ， 因 而 特征 又 可 以 取 其 他 的 范畴 为 它 的 值 。 这 样 的 
特征 ， 叫 做 “ 范 畴 值 特征 ”(category-valued feature) 。 例 如 ， 我 们 可 以 
使 用 arg0 (动词 的 逻辑 论 元 ，argument 0) 这 样 的 范畴 值 特征 ， 它 本 身 
又 可 以 具有 NP、PP 等 词组 类 型 范畴 以 及 人 称 (per) 、 数 (num) 、 人 性 
(gender) 、 格 (case) 等 范畴 。 


cat: NP 

er: 16 第 一 人 称 ) 

num: sing ( 单数 ) 
arg gender: mas ( 阳性 ) 

case: nom ( 主格 ) 


其 中 ，mas 是 masculine (IHE) 的 简写 ，nom 是 nominative (主格 ) 的 
简写 。 


我 们 可 以 用 范畴 值 特征 arg0 来 处 理 法 语 中 单词 的 一 致 关系 问题 。 
例如 ， 我 们 可 以 提出 如 下 的 语法 : 
规则 : 


S > X VP 


«VP arg0> = X 


在 这 个 规则 中 ，X 表 示 句 子 $ 的 主语 ， 这 个 主语 X 与 VP 的 arg0 特 征 
的 值 (人 称 、 数 等 ) 应 该 保持 一 致 ， 即 <VP arg0) =X. 


单词 : 代词 的 摘 述 与 前 面 的 语法 一 样 。 


je: <cat> = NP 
<per> = 1 
<num> = sing 
tu: <cat> = NP 
<per> = 2 
<num> = sing 
elle: <cat> = NP 
<per> = 3 
<num> = sing 
nous: <cat> = NP 
<per> = 1 
<num> = plur 
vous: <cat> = NP 
<per> = 2 
<num> = plur 
ils: <cat> = NP 
<per> = 3 


<num> = plur 


这 时 ， 动 词 的 撒 述 可 以 用 范畴 值 特征 arg0 的 值 来 表示 arg0 与 VP 之 
间 在 人 称 和 数 方面 的 一 致 关系 。 


tombe: 


<Cat> = VP 
<arg0 cat» 
<arg9 per» 


«argo num» 


tombes: 


tombe: 


«cat» - VP 


«argo cat» 
«argO per» 


«argo num» 


«cat» - VP 
«argO cat» 
«argO0 per» 


«argo num» 


tombons: 


tombez: 


«cat» - VP 
«argO cat» 
<arg9 per» 


«argo num» 


«cat» - VP 


«argO cat» 


«argO per» 


«argo nuim> 


tombent: 


«cat» - VP 


= plur 


«argO cat» = NP 
«argO per» = 3 


«argo num» = plur 


我 们 可 以 用 非 循 环 有 疝 图 线 DAG 来 表示 这 个 语法 中 动词 的 复杂 特 
征 .例如 ， 动 词 totmbons 的 复杂 特征 可 用 如 下 的 非 循环 有 回 图 线 来 表 
m 


在 图 7.2 中 ， 特 征 arg0 的 值 是 cat, per, num 等， 这 些 值 本 号 也 是 范 
畴 。 如 前 所 述 ， 这 样 的 特征 叫 范畴 值 特征 。 特 征 cat, per, num 的 值 分 别 
为 NP, 1, plur， 这 些 值 都 是 原子 ， 这 样 的 特征 ， 叫 “原子 值 特征 ” (atom- 
valued feature) 。 显 而 易 见 ， 当 且 仅 当 一 个 特征 不 是 原子 值 特征 时 ， 
它 就 是 范畴 值 特征 。 


O 〇 一 


cat arg0 
O O 
VP 
cat per num 
O O O 
NP l plur 


图 7.2 ”表示 动词 totmbons 复 杂 特 征 的 非 循环 有 向 图 线 


<arg0 num» = plur 这 样 的 记 法 同时 也 指出 了 在 非 人 循环 有 问 图 线 
DAG 中 的 一 条 路 径 <arg0 num», ， 而 这 条 路 径 终极 结 点 上 的 标记 为 
plur ° 


在 非 循 环 有 向 图 线 中 ， 范 畴 之 间 往 往 存 在 着 相互 继承 关系 。 例 
如 ， 动 词 词组 可 以 继承 动词 的 时 态 特 征 。 如 果 动 词 词组 为 母 范畴 
(mother category) ， 动 词 为 子 范畴 (daughter category) ， 由 于 母 范 
畴 继承 了 子 范畴 中 的 特征 ， 所 以 ， 子 范畴 就 可 以 叫做 母 范畴 的 “中 心 
i" (head) ， 动 词 就 是 动词 词组 的 中 心 词 ， 动 词 词组 继承 了 其 中 心 词 
的 时 态 特 征 。 


根据 中 心 词 的 概念 ， 我 们 可 以 把 动词 词组 VP 的 规则 写 为 如 下 形 
x: 


规则 : 


VP > V NP PP 


«V head» - «VP head» 


这 个 规则 要 求 动词 V 的 head 特 征 的 值 与 其 母 结 点 VP 的 head 的 值 相 
等 。 如 果 在 一 条 规则 中 ，V 中 的 head 所 包含 的 属性 一 值 偶 对 与 VP 中 的 
head 所 包含 的 属性 一 值 僵 对 不 一 致 ， 那 么 ， 我 们 束 不 能 使 用 这 条 规 
则 。 显 而 易 见 ， 在 这 种 情况 下 ，head 的 值 不 能 为 原子 ， 它 本 身 又 是 一 
个 非 循 环 有 疝 图 线 。 


前 面 讲 过 的 非 循环 有 疝 图 线 都 具有 树 形 图 的 形式 。 但 是 ， 非 循环 
有 癌 图 线 除 了 树 形 图 这 种 形式 之 外 ， 还 可 以 有 其 他 的 形式 。 我 们 可 以 
充分 地 利用 非 循环 有 回 图 的 灵活 性 ， 更 加 方便 地 表示 复杂 特征 的 结 
构 。 


作为 例子 ， 我 们 来 研究 下 面 的 VP 规 则 。 
规则 : 


VP > V NP PP 
«V head» - «VP head» 


«VP verb» - «V» 
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head verb head verb 


head 


O 
图 7.3 ”范畴 VP 的 两 种 不 同 表 示 方 法 


在 图 7.3 (a) 和 (b) 中 ， 特 征 head 的 重复 值 被 省 略 了 ， 被 省 略 的 
部 分 用 “...” 表 示 ， 由 于 head 的 值 又 可 以 是 一 个 非 循环 有 向 图 线 ， 因 
此 ,“...” 可 以 看 成 是 一 个 被 省 略 了 的 子 结构 (substructure) ， 在 图 7.3 
(a) 中 ， 这 个 子 结构 重复 出 现 两 次 ， 而 在 图 7.3 (b) 中 ， 这 个 子 结构 
只 出 现 一 次 ， 而 且 ， 它 为 两 个 head 所 共享 ， 图 7.3 (b) 不 是 一 个 树 形 
图 ， 但 它 仍然 是 一 个 非 循 环 有 向 图 线 ， 因 为 其 中 不 存在 从 一 个 结 点 出 
发 又 回 到 同一 结 点 的 循环 边 。 


被 省 略 的 子 结构 的 内 容 取 决 于 规则 中 “=” 的 具体 含义 。 例 如 ， 从 
<VP head> = <VP verb head> 


和 


<VP verb head num> = Sing 
我 们 可 以 得 到 
<VP head num> = Sing 


这 意味 着 ，VP 继 承 了 verb 的 全 部 head 特 征 。 这 就 是 规则 中 “=” 的 具 
WR X ° 


图 7.3 (a) 中 的 非 循环 有 向 图 线 可 以 这 样 来 解释 ， 由 于 存在 着 两 
个 head 子 结构 ， 因 此 ， 我 们 可 以 在 图 中 的 head 一 侧 增 加 一 些 别 的 信 
忌 ， 而 不 触动 图 中 的 head 一 侧 。 然 而 ， 图 7.3 (b) 中 的 非 循 环 有 向 图 
线 由 于 出 现 了 共享 一 个 子 结构 的 情况 ， 因 此 ,“=” 只 能 解释 为 共享 的 这 
个 子 结构 是 同样 一 个 子 结构 ，head 的 全 部 特征 都 是 完全 一 样 的 ， 而 不 
能 解释 为 只 是 head 全 部 特征 中 具有 某 些 相同 的 值 ， 因 此 ， 我 们 不 可 能 
只 给 一 侧 增 加 一 些 信息 ， 而 不 触动 另 一 侧 ，head 侧 和 verb head 侧 的 信 
因应 该 完全 相同 。 这 种 共享 的 表示 方法 可 以 使 数据 结构 更 加 短小 精 
悍 ， 它 只 需要 保持 一 个 共 侍 的 子 结构 。 所 以 ， 我 们 应 该 把 “=” 解 释 为 两 
个 玫 畴 共享 ， 而 不 只 是 把 “=” 解 释 为 只 是 具有 同样 的 值 。 


在 共 吾 的 非 循环 有 回 几 线 中 ， 我 们 允许 终极 结 点 是 不 市 标记 的 。 
例如 ， 表 示 规 则 


< 特征 1> = < 特征 2> 


的 非 循环 有 向 图 线 可 以 允许 不 之 标记 的 结 点 。 如 图 7.4 所 示 。 


特征 1 特征 2 


图 7.4” 结 点 不 带 标记 的 非 循环 有 向 图 线 


不 过 ， 如 果 我 们 一 旦 允许 出 现 不 带 标 记 的 终极 结 点 ， 束 可 能 使 得 
同样 的 信息 可 以 用 几 个 不 同 的 图 来 表示 。 因 为 我 们 总 十 可 以 在 不 增加 
HARBUARTE 下， 把 许多 不 市 标记 的 结 点 加 a 到 一 个 非 循环 有 向 图 线 上 ， 
而 这 些 不 带 标 记 的 结 点 或 者 是 无 用 的 或 者 是 谚 座 的 。 


因此 ， 在 非 循 环 有 向 图 线 中 ， 我 们 可 以 不 堵 虚 那些 不 带 标 记 的 终 
极 结 点 ， 因 为 这 样 的 终极 结 点 不 能 给 我 们 提供 任何 有 用 的 信息 。 从 这 
个 意义 上 说 ， 图 线 7.5 (a) 5 (b) 中 的 非 循环 有 向 图 线 是 完全 等 价 
的 : 


11 11 
14 14 
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图 7.5 ”两 个 完全 等 价 的 非 循环 有 向 图 线 


图 7.5 (a) 中 边 14 的 终极 结 点 上 有 标记 a， 而 从 边 12 延 伸 到 边 13 的 
终极 结 点 上 没有 标记 ， 因 此 ， 边 12 和 边 13 可 以 看 成 是 多 余 的 ， 这 样 ， 
图 7.5 (a) 中 的 非 循环 有 向 图 线 就 完全 等 价 于 图 7.5 (b) 的 非 循 环 有 向 
RT 。 


在 剖析 过 程 中 ， 要 对 语言 成 分 的 复杂 特征 进行 匹配 ， 匹 配 时 要 涉 
A SJ Zi i ( subsumption) 、 合 一 (unification ) 、 沁 化 


(generalization) 等 概念 。 


下 面 我 们 来 介绍 这 些 概念 。 


ZR IER (subsumption) 


DIFAZI T TGNEBI HD: 
一 A 中 的 每 一 个 原子 值 特征 都 处 于 B 中 
一 对 于 A 中 共 至 的 两 个 特征 值 ， 在 B 中 相应 的 特征 值 也 共有 至 ; 


一 对 于 A 中 的 每 一 个 范畴 值 特征 ， 在 B 中 相应 的 特征 都 有 一 个 值 ， 
而 且 A 中 特征 的 值 强 涵 于 B 中 特征 的 值 之 中 。 


如 果 A 强 涵 于 B， 我 们 就 说 B 是 A 的 扩充 (extension) ， 或 者 说 “B 
扩充 了 A”。 

如 果 范 畴 A 包含 的 信息 少 于 范畴 B 包 含 的 信息 ， 那 么 ， 就 说 范畴 A 
真 包含 于 范畴 B， 这 时 ，A 中 的 每 一 个 信息 必定 在 B 中 出 现 ， 反之 不 


我 们 来 研究 图 7.6 中 的 范畴 。 
) 


QUEM. 
£o 

Ner 

We 
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O O O O 
cat cat per cat num cat r\ num 
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图 7.6 ”范畴 示例 


根据 强 涵 的 定义 ， 我 们 可 以 看 出 ， 范 上 畴 (a) BYE (b), 
Tm AGES (c) ; 范畴 (b) 与 范畴 (c) IKE Aaa; (AYO 
(b) 和 范畴 (c) 都 一 洱 于 范畴 (d) 。 


oe (unification) 


两 个 范畴 的 合 一 古 扩 充 这 两 个 范畴 而 形成 的 最 小 范畴 ， 如 果 这 样 
的 范畴 存在 ， 束 可 以 合 一 ， 否 则 融 不 能 合 一 。 


在 图 7.6 中 ， 范 畴 (d) 是 范畴 (b) 和 范畴 (c) 的 合 一 ， 它 是 范 

He (b) 和 范畴 (c 扩充 而 成 的 最 小 范畴 ; 范畴 (d) 还 可 以 看 成 是 范 

He (a) -Y5ER (b) 和 范畴 (c 的 合 一 ， 它 是 范畴 (a) 、 范 畴 (b) 
和 范畴 (c) 扩充 而 形成 的 最 小 范畴 。 

一 是 范畴 的 一 种 最 重要 的 运算 ， 合 一 运算 与 集合 论 中 的 并 运算 

很 相似 ， 只 是 合 一 运算 之 前 要 对 特征 的 相 容 性 进行 检验 ， 相 容 的 特征 

才 可 以 进行 合 一 ， 彼 此 冲突 的 特征 就 不 能 合 一 。 这 是 合 一 运算 与 并 运 


算 的 不 同 之 处 。 例 如 ， 我 们 有 图 7.7 中 的 范畴 。 


cat per \case 


NP 2 nom 


Hl7.7 ”范畴 又 一 示例 


图 7.7 中 的 这 个 范畴 与 图 7.6 中 的 范畴 (b) ABER, AAI SE 
畴 中 的 per 的 值 为 2， 而 图 7.6 的 范畴 (b) 中 的 per 的 值 为 1， 这 两 个 特征 
值 相互 冲突 。 


14 (generalization) [1] 
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可 以 看 出 ， 图 7.6 中 的 范畴 (a) 是 范畴 (b) 和 范畴 (c) WIZ 
K, CZT (b) 与 范畴 (c) 中 的 最 大 范畴 。 同 理 ， 我 们 也 
可 以 把 图 7.6 中 的 范畴 (a) 看 成 是 范畴 (b) > YEN (c) 、 范 畴 (d) 
以 及 图 7.7 中 的 范畴 的 汉化。 


合 一 运算 是 复杂 特征 最 重要 的 运算 。 下 面 ， 我 们 来 说 明 ， 如 何 对 
两 个 范畴 进行 合 一 运算 。 如 果 这 两 个 范畴 征用 非 循环 有 癌 岁 线 来 表示 
的 ， 那 么 ， 合 一 运算 天 要 把 这 两 个 用 非 循环 有 回 独 线 表示 的 范畴 中 的 
ARATE HE, EID TT TIAE ARRAN ABR 
FR gx, RITI DAR VE A SAB BIA H I a 
HAC, IIS AA STARTS ATT el, FE SAR EAMG ARRE 
i, TARY, BDA RIE As ed Hl ESTA AE TRANS HRE o 


为 了 形象 地 解释 合 一 的 过 程 ， 我 们 可 以 把 一 个 手指 头 指 在 第 一 个 
非 循环 有 癌 图 线 的 结 点 上 ， 把 男 一 个 手指 尖 指 在 第 二 个 非 人 循环 有 问 图 
线 的 结 点 上 ， 而 把 大 拇指 指 在 相应 于 这 两 个 图 的 新 的 非 循环 有 疝 图 线 
的 结 点 上 。 


在 图 7.8 中 ，- L 表示 手指 头 ， 由 表示 大 拇指 。 


运算 开始 时 ， 两 个 手指 头 分 别 指 在 第 一 个 图 和 第 二 个 图 的 初始 结 
点 上 ， 而 大 拇指 指 在 新 图 的 初始 结 点 上 。 每 当 我 们 的 手指 头 指 向 第 一 
个 图 中 的 一 个 结 点 ， 而 且 我 们 的 另 一 个 手指 头 也 同时 指 同 第 二 个 图 中 
的 一 个 结 点 的 时 候 ， 我 们 要 检查 一 下 离开 这 些 结 点 的 边 上 的 标记 是否 
相 容 ， 然 后 ， 束 在 新 图 中 造 一 条 新 的 边 ， 并 把 这 个 标记 记录 在 新 的 边 
上 ，.…， 如 此 进行 下 去 。 按 此 方式 ， 我 们 的 手指 头 不 断 地 在 第 一 个 图 
和 第 二 个 图 上 移动 ， 我 们 的 大 拇指 也 不 断 地 在 新 图 中 造 出 新 的 边 并 作 
出 相应 的 标记 ， 只 要 这 些 标 记 是 彼此 相 容 的 ， 最 后 我 们 束 可 以 得 到 合 
一 运算 的 结果 。 如 图 7.8 所 示 。 


前 面 我 们 介绍 了 如 何 用 非 循 环 有 辐 图 线 来 描述 复杂 特征 ， 下 面 ， 
我 们 再 介绍 一 下 如 何 用 非 循环 有 问 图 线 来 描述 语法 规则 。 


在 上 下 文 无 关 的 短语 结构 语法 中 ， 语 法 规则 的 左 部 LHS 十 单个 的 
范畴 ， 而 其 右 部 RHS 则 十 范畴 组 成 的 序列 。 如 采 采 用 复杂 特征 的 办 
法 ， 可 以 对 规则 的 左 部 和 右 部 作 进一步 的 说 明 。 


(b) 


O — + O 


(c) 


图 7.8 合 一 运算 的 过 程 


例如 ， 下 面 的 规则 


S > NP VP 
«NP head» - «VP head» 


«S subj» - «NP» 


可 以 进一步 改写 为 


XO 一 X1 x2 
«XO cat» = S 
«X1 cat» - NP 
«X2 cat» - VP 
«X1 head» - «X2 head» 


«X0 subj» = «Xi» 


这 个 规则 说 明 ， 如 果 X0 的 cat 是 S，X1 的 cat 是 NP，X2 的 cat 是 VP， 
XX1 的 head 与 X2 的 head 相 同 ，X0 的 subj 是 X1， 那 么 ， 范 畴 X0 就 可 以 重 
写 为 范畴 X1 加 上 它 后 面 的 范畴 X2。 


这 个 规则 ， 可 以 用 如 下 的 非 循环 有 向 图 线 来 表示 (图 7.9) : 


XO X1 X2 


| 


cat subj cat head head cat 
O 


O O O 
S NP 
图 7.9 用 非 循环 有 向 线 来 表示 规则 


PT ARRESE 


下 面 ， 我 们 进一步 说明 如 何 用 基于 复杂 特征 的 语法 来 进行 图 线 齐 
WT ° 
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第 一 ， 表 达 复 杂 特 征 的 语法 、 规 则 与 词汇 条 目 比 表达 单一 特征 的 
语法 、 规 则 与 词汇 条 目的 内 容 更 加 丰富; 


第 二 ， 表 达 复 杂 特 征 的 图 线形 式 比 表达 单一 特征 的 图 线形 式 更 加 
EM ° 


我 们 在 第 六 章 中 说 过 ， 图 线 的 边 的 结构 市 有 如 下 的 成 分 : 


«START» = ... 某 个 正 数 ... (表示 边 从 哪里 开始 ) 


«FINISH» = ... 某 个 正 数 ... (表示 边 在 哪里 结束 ) 
«LABEL» = ... 某 个 范畴 ... (表示 边 的 主要 目标 ) 


<FOUND> = ... 某 个 范畴 系列 ... (表示 短语 中 已 经 找到 的 部 分 ) 
<TOFIND> = ... 某 个 范畴 系列 ... (表示 短语 中 尚未 找到 的 部 分 ) 


我 们 把 LABEL, FOUND 和 TOFIND 等 成 分 用 带 圆 点 的 规则 来 表 
示 ， 其 中 ，LABEL 是 规则 的 左 部 ，FOUND 是 规则 右 部 中 位 于 圆 点 之 
前 的 范畴 系列 ，TOFIND 是 规则 右 部 中 位 于 圆 点 之 后 的 范畴 系列 。 为 
了 表达 复杂 特征 ， 线 图 边 上 的 LABEL 不 再 由 一 般 的 范畴 来 表示 ， 而 是 
由 非 循 环 有 向 图 线 DAG 来 表示 ， 线 图 边 上 的 FOUND 和 TOFIND 也 同样 
由 非 循 环 有 向 图 线 来 表示 ， 这 样 ，LABEL, FOUND 和 TOFIND 等 成 分 
合 在 一 起 ， 成 为 由 若干 个 非 循环 有 向 图 线 DAG 构 成 的 一 个 系列 。 


在 一 条 边 上 的 这 些 非 循环 有 向 图 线 DAG 一 般 并 没有 必要 列举 出 全 
部 的 特征 ， 它 们 只 须 构成 一 个 规则 ， 足 以 说 明 各 个 范畴 之 间 的 关系 整 
行 了 。 下 面 的 图 6.10 束 十 由 非 循 环 有 疝 图 线 DAG 构 成 的 一 条 英语 语法 
的 规则 ， 这 个 规则 标注 在 活性 边 上 ， 规 则 中 带 有 圆 点 “e” (为 了 醒目 ， 
我 们 把 圆 点 放大 了 ) ° 


图 7.10 ”活性 边 上 的 一 条 由 DAG 构 成 的 规则 


这 条 规则 说 明 ， 我 们 已 经 找到 了 一 个 NP， 这 个 NP 的 per (AFK) 
为 3， 如 果 我 们 还 能 找到 一 个 per 为 3 的 VP， 而 且 这 个 VP 的 num (Žr) 
与 NP 的 hum 相同 ， 那 么 ， 我 们 就 可 以 把 NP 和 VP 结合 成 一 个 S$， 这 个 S 
的 mood ( 语 式 ， 如 陈述 式 、 命 令 式 、 疑 问 式 等 ) 与 VP 的 mood 相 同 。 
这 个 规则 的 主干 相当 于 英语 中 上 下 文 无 关 的 短语 结构 语法 的 如 下 的 单 
一 特征 规则 : 


<i, j, S > NE. VP» 


可 见 ， 表 示 复 杂 特 征 的 规则 比 表示 单一 特征 的 规则 丰富 得 多 ， 单 
一 特征 规则 构成 了 复杂 特征 规则 的 主干 ， 它 表示 了 规则 的 最 起 码 的 要 
求 ， 它 只 是 说 明了 在 英语 中 一 个 NP 后 面 跟着 一 个 VP 就 可 以 构成 一 个 
S， 而 复杂 特征 还 进一步 说 明 NP 与 VP 的 num 必 须 一 致 ，per 应 该 等 
3，S 的 mood 与 VP 的 mood 也 必须 一 致 。 由 此 可 见 ， 基 于 复杂 特征 的 规 
则 确实 比 基 于 单一 特征 的 规则 多 姿 多 彩 。 


下 面 的 图 7.11 是 标注 在 非 活性 边 上 的 一 条 由 非 循 环 有 向 图 线 构成 
HUM], UU] EP ETUR e e" o 


cat /num mood 
O O O 
VP sing declare 


R71 非 活性 边 上 的 一 条 由 DAG 构 成 的 规则 


这 个 规则 表示 ， 我 们 找到 了 一 个 VP， 它 的 num 为 sing 〈 单 数 ) ， 
它 的 mood 为 declare (陈述 式 ) ， 规 则 右 部 的 其 他 特征 都 省 略 了 ， 只 是 
在 规则 右 部 的 末尾 加 了 圆 点 ， 表 示 所 有 其 他 的 特征 都 与 我 们 的 要 求 相 
吻合 。 例 如 ， 如 果 我 们 想 找 到 一 个 per 为 3 的 VP， 那 么 ， 这 个 VP 总 是 符 
合 要 求 的 。 


这 条 规则 的 主干 相当 于 上 下 文 无 关 短 语 结构 语法 的 单一 特征 规 
则 : 


<j, k, VP > ... .> 


这 样 的 边 也 可 以 按 图 线 的 基本 规则 结合 起 来 。 例 如 ， 图 7.10 中 的 
活性 边 与 图 7.11 中 的 非 活 性 边 就 可 以 用 基本 规则 结合 起 来 。 图 7.10 中 的 
活性 边 要 求 圆 点 之 后 的 VP 的 人 称 为 第 三 人 称 (per = 3) ， 这 与 图 7.11 
中 的 非 活性 边 上 的 信息 相 容 ， 因 此 ， 可 以 把 它们 结合 起 来 ， 其 结果 如 
图 7.12 所 示 : 


cat cat 


mood 


declare 
图 7.12 EFE EZB ZR 


Au 


从 图 7.12 中 可 以 看 出 ， 由 于 活性 边 上 的 规则 要 求 S 的 mood 与 VP 的 
mood 一 致 ， 而 非 活性 边 上 的 规则 中 ，VP 的 mood 为 declar 〈 陈 述 式 ) ， 
所 以 ，S 的 mood 也 为 declar (陈述 式 ) ; 由 于 活性 边 上 的 规则 要 求 NP 
的 num 与 VP 的 num 相 同 ， 而 非 活 性 边 上 的 规则 中 ，VP 的 num 为 sing， 
所 以 ，NP 的 num 必 为 sing。 由 于 在 活性 边 上 的 规则 中 ， 圆 点 之 后 要 求 
找 查 的 VP 的 非 循 环 有 癌 图 线 DAG 与 我 们 在 非 活 性 边 上 的 规则 中 所 发 现 
的 VP 的 非 循 环 有 向 图 线 DAG 都 相 容 ， 因 此 ， 或 可 以 应 用 基本 规则 把 它 
们 结合 起 来 ， 进 行 合 一 运算 ， 其 运算 的 结果 ， 形 成 了 一 条 新 的 边 ， 在 
这 条 边 上 的 规则 中 ， 整 个 句子 的 各 个 部 分 的 信息 都 合 在 一 起 了 ， 信 息 
也 都 增多 了 。 而 且 ， 原 来 在 活性 边 上 的 那 条 规则 中 的 圆 点 位 置 癌 右 移 
动 到 了 VP 之 后 ， 形 成 了 新 的 规则 。 这 条 新 规则 的 主干 相当 于 上 下 文 无 
天 短语 结构 语法 的 如 下 的 单一 特征 规则 : 


<i, k, S > NP VP .> 


活性 边 上 的 标记 的 主干 为 
<i, j, S > NP. VP>, 

非 活性 边 上 的 标记 的 主干 为 
<j,k, VP > ....>, 

形成 的 新 边 上 的 标记 的 主干 为 
<i, k, S > NP VP .> ° 


nM, DAE BEETS POR Ed ART F ERN Se eT LA DA 
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富 。 复 杂 特 征 确实 使 图 线 齐 析 饥 上 添 化 ， 更 为 生 色 。 


第 三 节 ” 词 汇 的 复杂 特征 表示 法 


近年 来 在 自然 语言 计算 机 处 理 中 ， 词 汇 的 地 位 显得 越 来 越 重 要 ， 
许多 学 者 的 研究 工作 逐渐 从 对 语言 结构 事实 的 解释 转向 对 词语 事实 的 
解释 ， 这 就 是 当代 语言 学 研究 中 的 词汇 主义 (lexicalism) 倾向 。 研 究 
实践 证 明 ， 许 多 过 去 用 句法 规则 难于 处 理 的 问题 ， 一 旦 采用 词汇 规则 
束 可 以 迎刃而解 。 我 们 确实 有 必要 来 讨论 一 下 如 何 用 复杂 特征 来 描述 
词汇 的 问题 。 


在 一 个 实用 的 目 然 语言 处 理 系 统 中 ， 词 汇 单 元 所 包含 的 特征 应 该 
是 多 方面 的 。 尽 管 由 于 自然 语言 处 理 系统 的 目的 不 尽 相 同 ， 不 同 的 系 
统 对 于 词汇 的 描述 各 具 特 色 ， 但 是 ， 各 个 系统 几乎 都 要 具体 地 搞 述 词 


的 词类 特征 ， 词 的 次 类 及 其 语法 特征 ， 如 词 的 性 、 数 、 人 称 、 时 态 、 
体 、 语 气 、 语 态 等 等 。 如 果 要 作 较 为 深入 的 目 动 列 析 ， 还 需要 描述 单 
词 的 语义 特征 ， 在 许多 有 屈折 变化 的 语言 中 ， 除 了 摘 述 单词 形态 ve 
的 屈折 变化 之 外 ， 还 需要 描述 单词 形态 的 不 规则 届 折 变化 。 在 这 一 
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词汇 中 所 包含 的 纯 句 法 信息 主要 有 三 种 类 型 


(1) 词类 特征 : 例如 ， 某 词 为 动词 ， 某 词 为 名 词 等 ; 


(2) 词 与 词 之 间 的 结合 特征 ， 例 如 ， 某 词 的 主语 是 什么 ， 某 词 的 
补 语 是 什么 等 


(3) 与 句法 有 关 的 词 的 其 他 特征 : 例如， 名 词 的 性 、 数 等 。 


三 种 类 型 的 纯 句 法 信息 ， 在 基于 特征 的 句法 分 析 中 是 用 词 的 句 
法 范畴 来 表示 的 。 例 如 ， 德 语 Midchen (姑娘 ) 的 句法 信息 可 表示 
为 : 


lexeme Madchen: 
<cat> = N 


<gender> = neut 


其 中 ，<gender> 表 示 “ 性 ”"， 其 值 neut 表 示 “ 中 性 ” (neutral) 。 因 此 ， 这 
个 词汇 条 目 表 示 德 语 的 Midchen 是 一 个 中 性 名 词 。 


英语 love (Z, SW) 的 句法 信息 可 表示 为 : 


lexeme love: 


«cat» = V 


<arg0 cat> = NP 
<arg0 case» = nom 
<argi cat» = NP 


<arg1 case» = acc 


其 中 ，<arg0 case» 表示 “ 论 元 0 的 格 ”， 其 值 nom 表 示 “ 主 
格 ” (nominative) ，<argl case> 表 示 “ 论 元 1 的 格 ”， Bu FE 
格 ” (accusative) 。 因 此 ， 这 个 词汇 条 目 表 示 英 语 love 是 一 个 动词 。 
个 动词 具有 一 个 主格 主语 NP 和 一 个 宾 格 宾语 NP。 我 们 用 arg0 m 
0) 表示 主语 ， 用 arg1 ( 论 元 1) 表示 直接 宾语 。 


英语 give (给 ) 的 句法 信息 可 表示 为 : 


lexeme give: 
<cat>= V 
<argO cat» = NP 
«argO case» = nom 
<arg1 cat» = NP 
«argi case» = acc 
<arg2 cat> = PP 


<arg2 pform> = to 


其 中 ，PP 表 示人 介词 词组 ，<arg2 pform> 表 示 论 元 2 这 个 介词 词组 的 
介词 形式 (pform) 是 to。 


英语 bet (打赌 ) 这 个 动词 使 得 我 们 还 得 使 用 arg3 来 表示 论 元 3。 例 
如 ， 在 句子 


He bets me ten dollars on John's coming. 


(他 认为 约翰 会 来 ， 与 我 打赌 十 元 。) 


其 中 ，he 是 arg0，ten dollars 是 arg1，me 是 arg2，on John's coming 


是 arg3， 论 元 3 (arg3) 表示 在 哪 一 方面 打 财 ， 也 就 是 打赌 的 内 容 。 


当然 ， 有 时 动词 也 可 以 不 提 打 赌 的 内 容 ， 这 时 ，arg3 束 等 于 零 
了 。 例 如 ， 句 子 


He bets me ten dollars. 


(他 与 我 打赌 十 元 。) 


在 这 种 情况 下 ， 英 语 的 bet 这 个 动词 的 句法 特征 可 用 如 下 的 规则 来 
表示 : 


当 不 提 打 赌 的 内 容 时 ， 表 示 为 规则 1 。 
规则 1: 


VP > V X1 X2 
<V argi> = X1 
<V arg2> = X2 


<V arg3> = 0 
当 提 到 打赌 的 内 容 时 ， 表 示 为 规则 2 。 
规则 : 


VP > V X1 x2 X3 


«V argi> = X1 


<V arg2> = X2 


<V arg3> = X3 


一 般 说 来 ， 用 arg0, argl, arg2, arg3 四 个 论 元 来 描述 英语 动词 已 经 足 
fle fe 


上 述 的 表示 方法 是 针对 一 个 一 个 的 英语 动词 的 。 英 语 中 动词 成 千 
上 万 ， 仪 像 love 这 样 的 及 物 动 词 ， 尝 用 的 就 有 数 二 个 ， 如 采 一 个 动词 
一 个 动词 地 来 逐一 进行 描述 ， 词 库 的 容量 将 会 变 得 十 分 上 庞大。 为 了 避 
免 这 种 困难 局 面 ， 我 们 可 以 采用 一 种 简便 的 “ 宏 表示 法 ” (Macros) 


宏 表 示 法 把 动词 加 以 分 类 ， 按 类 来 记录 动词 的 复杂 特征 。 在 英语 
的 摘 述 中 ， 宏 表示 法 把 英语 动词 分 为 四 类 : 


(1) 不 及 物 动词 ， 如 die ( 死 ， 凋 谢 ) 。 
在 句子 
The flowers soon die. 
( 花 很 快 就 凋谢 了 。) 
中 ，die 的 arg0 是 flowers ( 花 ) ， 它 是 一 个 作 主格 主语 的 NP 。 
这 一 类 不 及 物 动词 的 宏 表 示 法 如 下 : 


Macro syn iV: 
«cat» - V 
«argO cat» = NP 


«argO case» = nom 


其 中 ，syn_iV 表 示 不 及 物 动 词 (intransitive verb) 的 句法 特征 。 
(2) 及 物 动词 ， 如 eat (Iz) 
在 句子 


Tigers eat meat. 


(老虎 吃 鲜 肉 。) 


中 ，eat 的 arg0 是 tigers (老虎 ) ， 它 是 一 个 作 主 格 主语 的 NP，eat 的 arg1 
是 meat ( 鲜 肉 ) ， 它 是 一 个 作 宾 格 宾 语 的 NP。 由 于 主格 主语 在 不 及 物 
动词 的 宏 表 示 法 Macro syn_iV 中 已经 出 现 过 ， 故 不 再 重复 写 出 ， 人 简写 
为 syn_iV 即 可 。 这 一 类 及 物 动词 的 宏 表 示 法 如 下 : 


Macro syn tV: 
syn iV 
«argi cat» = NP 


«argi case» = acc 
其 中 ，syn_tV 表 示 及 物 动 词 (transitive verb) 的 句法 特征 。 


在 调用 Macro syn_tV 时 ， 应 该 同时 激活 Macro syn_iV， 也 就 是 说 ， 
Macro syn, tV iA 5j Macro syn_iV 一 块 儿 调用 。 


(3) 双 及 物 动词 : 如 give (24) 
在 句子 


We give a book to the boy. 
(我 们 给 了 这 个 男孩 儿 一 本 书 。) 


中 ，give 的 arg0 是 we (我 们 ) ， 它 是 一 个 作 主 格 主语 的 NP，give 的 arg1l 
是 a book (一 本 书 ) ， 它 是 一 个 作 宾 格 宾语 的 NP，give 的 arg2 是 to the 
boy， 它 是 一 个 介词 形式 (pform) 为 to 的 PP。 由 于 主格 主语 在 不 及 物 
动词 的 宏 表 示 法 Macro syn_iV 中 已 经 出 现 过 ， 宾 格 宾语 在 及 物 动词 的 
ARI {E Maco syn_tV 中 已 经 出 现 过 ， 故 不 再 重复 写 出 ， 只 人 简写 为 
syn_tV。 这 一 类 双 及 物 动词 的 宏 表示 法 如 下 : 


Macro syn dtV: 
syn tV 
«arg2 cat» - PP 


«arg2 pform» - to 
其 中 ，syn_dtV 表 示 双 及 物 动词 (ditransitive verb) 的 句法 特征 。 


在 调用 Macro syn_dtV 时 ， 应 该 同时 激活 Macro syn tV, EWE 
Ji, Macro syn_dtV 应 该 与 Macro syn_tV 一 块 儿 调 用 ， 而 当 调 用 Macro 
syn_tV 时 ， 又 得 激活 Macro syn_iV， 所 以 ， 在 调用 Macro syn_dtV 时 ， 
Macro syn_tV 及 Macro syn_iV 都 激活 了 。 


(4) 给 予 动词 : 如 hand (递交 ) 。 
TEA) 


My brother hands me the hammer. 


(我 的 弟弟 把 锤子 送 给 我 。) 


中 ，hand 的 arg0 是 my brother (我 的 弟弟 ) ， 它 是 一 个 作 主 格 主语 的 
NP，hand 的 arg1 是 the hammer (锤子 ) ， 它 是 一 个 作 宾 格 宾语 用 的 
NP，hand 的 arg2 是 me (我 ) ， 它 是 另 一 个 作 宾 格 宾语 的 用 的 NP， 由 于 


主格 主语 在 不 及 物 动词 的 宏 表示 法 Macro syn_iV 中 已 经 出 现 过 ， 第 一 
IP POSER E BOD DTA Sm TS Macro syn_tV 中 已 经 出 现 过 ， 故 不 
再 重复 写 出 ， 只 简写 为 syn_tV， 这 一 类 给 予 动词 的 宏 表示 法 如 下 : 


Macro syn datV: 
syn tV 
«arg2 cat» - NP 


«arg2 case» - acc 


其 中 ，syn_datV 表 示 给 予 动词 (dative verb) 的 句法 特征 。 


在 调用 Macro syn_datV 时 ， 应 该 同时 激活 Macro syn_tV ， 而 激活 
Macro syn_tV 时 ， 也 必得 要 移 激 活 Macro syn_iV， 这 样 ， 在 调用 Macro 
syn_datV 时 ，Macro syn_tV 和 Macro syn_iV 都 激活 了 ° 


这 种 安 表 示 法 大 大 地 简化 了 词汇 的 句法 特征 的 写法 ， 它 用 一 个 简 
单 的 符号 来 代 殖 一 大 串 复 杂 特 征 。 例 如 ， 用 syn_iV 这 样 的 催 单 符 扎 ， 
WIRE T <cat>=V, <arg0 cat>=NP, <arg0 case>=nom 等 复杂 特征 。 在 词 
汇 条 目 中 ， 每 当 我 们 调用 一 个 安 表 示 时 ， 也 就 等 于 调用 了 它 所 代替 的 

大 串 复 杂 特 征 ， 我 们 甚至 可 以 用 一 个 宏 表示 来 定义 另 一 个 宏 表 示 ， 
例如 ， 用 宏 表 示 syn_iV 来 定义 宏 表 示 syn_tV。 


采用 这 些 手 段 ， 我 们 可 以 把 词汇 条 目 表达 得 十 分 简 清 。 


例如 ， 我 们 可 以 把 die ( 死 ， 凋 谢 ) ，elapse (JM X5) , eat 
(Z) , give (Z3) , hand (递交 " , love (#, =k) 等 单词 条 目 用 
安 表 示 法 写成 如 下 的 形式 : 


Lexeme die: 

syn iV 
Lexeme elapse: 

syn iV. 
Lexeme eat: 

syn iV. 
Lexeme eat: 

syn tV. 
Lexeme give: 

syn tV. 
Lexeme give: 

syn. dtV. 
Lexeme give: 

syn. datV. 
Lexeme hand: 

syn dtV. 
Lexeme hand: 

syn_datv. 
Lexeme love: 


syn tV. 


有 些 词 可 以 属于 不 同 的 句法 类 别 ， 因 而 它们 可 以 归 入 若干 个 不 同 
WALA e fu. eat ARR, MAAR oa, Beas 
入 词汇 条 目 syn_iV 和 syn_tV; give 可 以 为 及 物 动词 、 双 及 物 动词 、 给 予 
动词 ， 故 可 归 入 词汇 条 目 syn_tV, syn_dtV 和 syn_datV; hand 可 以 为 双 及 
物 动 词 ， 又 可 以 为 给 予 动词 ， 故 可 入 词汇 条 目 syn_dtV 和 syn_datV。 


宏 表 示 大 大 地 简化 了 词汇 条 目的 写法 ， 但 在 自然 语言 计算 机 处 理 
的 过 程 中 ， 有 必要 对 宏 表 示 作 出 适当 的 解释， 以 适应 自然 语言 处 理 系 
统 的 特定 要 求 。 这 种 解释 ， 叫 做 宏 表 示 的 扩展 (expantion of 
Macro) 。 宏 表示 扩展 的 详 上 略 程 度 视 自然 语言 处 理 系 统 的 不 同 要 求 而 
有 所 不 同 ， 必 要 时 ， 我 们 其 至 可 以 把 宏 表 示 直 接 扩 展 为 词汇 条 目的 非 
循环 有 向 图 线 DAG ° 


例如 ， 宏 表示 


Lexeme give: 


syn tV. 
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give 
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图 7.13 ” 宏 表 示 扩 


€— 


argl 


当然 ,根据 目 然 语言 处 理 系统 的 实际 需要 情况 ， 我 们 有 时 只 是 把 
宏 表 示 扩 展 为 非 循环 有 问 图 线 中 的 一 部 分 


把 宏 表 示 扩 展 之 后 ， 便 可 以 与 其 他 词汇 单元 的 非 循环 有 癌 图 线 进 
行 合 一 ， 谢 析 程 序 便 可 以 利用 词汇 条 目 中 所 包含 的 复杂 特征 进行 和 运 


H o 


上 面 我 们 只 是 研究 了 词汇 的 句法 信息 的 表示 方法 ， 事 实 上 ， 词 汇 
中 还 包含 语义 信息 和 词法 信息 ， 我 们 在 词汇 条 目的 复杂 特征 描述 中 ， 
有 必要 全 面 地 表示 出 词汇 中 所 包含 的 各 种 信息 ， 既 要 描述 句法 信息 ， 
也 要 描述 词法 信息 和 语义 信息 。 


词汇 的 语义 信息 ， 对 于 动词 来 说 ， 主 要 是 它 的 论 元 信息 。 例 如 ， 
动词 eat 可 有 不 同 的 论 元 。 在 句子 


We eat. 


(我 们 吃 。) 
中 ， 动 词 eat 只 有 一 个 论 元 arg0 (we) ; 在 句子 


We eat fish. 
(我 们 吃 鱼 。) 


中 ， 动 词 eat 有 两 个 论 元 : argo (we) 和 argl (fish) 。 因 此 ， 在 语义 
上 ， 我 们 有 必要 把 动词 eat 分 为 两 个 ， 只 有 一 个 论 元 的 eat 记 为 eatla， 具 
有 两 个 论 元 的 eat 记 为 eat2a， 其 中 的 数目 字 表 示 论 元 的 个 数 ，1 表 示 有 
—MBIE, 23RWB8 WITHEZU ? 


依 此 推 之 ， 在 句子 


We give fish to John. 
(我 们 把 鱼 给 约翰 。) 


中 的 give 有 三 个 论 元 : argo, argl, arg2， 我 们 在 语义 上 把 give 记 为 


give3a ° 


在 句子 


We give John fish. 
(我 们 给 约翰 鱼 。) 


中 的 give 也 有 三 个 论 元 : argo, argl, arg2， 但 是 ， 其 中 的 arg2 不 市 介词 
to， 为 与 give3a 相 区 别 ， 我 们 在 语义 上 把 这 个 give 记 为 give3b。 


这 里 的 1a, 2a, 3a, 3b 等 只 是 一 种 语义 常数 ， 不 同 的 词 的 语义 浓 数 不 
尽 相 同 ， 这 样 ， 从 语义 间 数 我 们 束 不 难看 出 词 在 语义 上 的 特性 。 


如 有 果 我 们 用 宏 表示 来 记录 词汇 的 句法 信息 ， 用 <sem> 来 记录 词汇 
的 语义 信息 ， 那 么 ，die, elapse, eat, give, hand, have 等 单词 条 目 可 以 进 


Lexeme die: 

syn iV 

«sem» = diela. 
Lexeme elapse: 

syn_iV 

«sem» = elapseia. 
Lexeme eat: 

syn iV 

«sem» = eatia. 
Lexeme eat: 

syn tV 

«sem» - eat2a. 


Lexeme give: 


syn_tV 


«sem» = give2a. 


Lexeme give: 


syn dtv 


«sem» - give3a. 


Lexeme give: 


syn. datV 


«sem» - give3b. 


Lexeme hand: 


syn dtV 


«sem» = hand3a. 


Lexeme hand: 


syn. datV 


«sem» - hand3b. 


Lexeme love: 
syn tV 


«sem» - love2a 


在 词汇 条 目 中 ， 
有 八 个 不 同 的 形式 
语法 语义 。 


我 们 还 需要 词法 信息 。 英 语 的 一 个 动词 最 多 可 以 


o 其 中 一 个 形式 是 词根 ， 其 他 七 个 形式 表示 不 同 的 


例如 ， 有 英语 的 不 规则 动词 be 的 八 个 形式 如 下 : 


root — be 
form1 — am 
form2 — are 


form3 — is 


form4 一 was 
form5 一 were 
form6 — been 


form7 — being 


我 们 用 特征 root 来 表示 动词 的 词根 ， 用 特征 form1 到 form7 来 表示 动 
词 的 其 他 七 个 形式 : form1, form2 和 form3 表 示 第 一 人 称 ， 第 二 人 称 和 
第 三 人 称 的 现在 时 形式 ，form4 表 示 第 一 人 称 单 数 过 去 时 形式 ，forms5 
表示 第 二 人 称 单 数 过 去 时 形式 ，form6 表 示 过 去 分 词 形 式 ，form7 表 示 
现在 分 词 形 式 。 不 规则 动词 be 的 这 八 个 形式 在 形态 上 各 不 相同 ， 而 且 
词根 与 其 他 七 个 形式 在 形态 上 的 联系 也 不 是 一 腿 就 可 以 看 出 来 的 。 


英语 的 规则 动词 只 有 四 种 不 同 的 形式 ， 而 且 ， 它 们 在 形态 上 可 以 
从 词根 推出 来 。 例 如 ，stamp (EE) 的 形式 如 下 : 


root — stamp 
form1 — stamp 
form2 — stamp 
form3 — stamps 
form4 — stamped 
form5 — stamped 
form6 — stamped 


form7 — stamping 


为 了 分 析 上 的 方便 ， 我 们 把 规则 动词 的 这 些 形 式 分 为 两 个 部 分 : 一 部 
分 叫 词 干 (stem) ， 一 部 分 叫 词尾 (ending) ， 这 样 ， 我 们 就 可 以 用 
Je 7 Macro mor regV 来 记录 规则 动词 的 词法 信息 。 在 宏 表 示 Macro 


mor regV 中 ，mor 表 示 词 法 (morphology) ，regV 表 示 规 则 动词 


(regular verb) 。 


Macro mor regV: 

«mor formi stem» = «mor root» 
«mor formi ending» = 8 

«mor form2 stem» = «mor root» 
«mor form2 ending» = 8 

«mor form3 stem» = «mor root» 
«mor form3 ending» - s 

«mor form4 stem» = «mor root» 
«mor form4 ending» - ed 

«mor form5 stem» = «mor root» 
«mor form5 ending» = ed 

«mor form6 stem» = «mor root» 
«mor form6 ending» - ed 

«mor form7 stem» = «mor root» 


«mor form7 ending» = ing 


这 里 ，mor 表 示 词 法 ，stem 表 示 词 干 ，ending 表 示 词 尾 ，e 表 示 空 
词尾 ， 也 就 是 语法 中 的 零 形 式 。 在 宏 表 示 Macro mor_regV 中 ， 当 词 干 
与 词尾 结合 成 为 词 的 各 种 形式 时 ， 应 遵循 英语 正 词 法 规则 。 例 如 ， 当 
词 干 love 与 词尾 img 结合 时 ，love 中 的 e 应 该 抹 去 ， 结 合 后 应 该 形成 
loving， 而 不 能 形成 loveing ° 


如 果 我 们 在 一 个 英语 词 条 中 ， 同 时 考虑 句法 、 语 义 和 词 法 的 信 
轧 ， 并 使 用 宏 表示 法 ， 那 么 ， 英 语词 条 可 表示 得 十 分 紧凑 和 简洁。 例 
如 ，stamp 这 个 词 条 可 表示 为 : 


Lexeme stamp: 
<mor root> = stamp 
mor regV 
syn tV 


«sem» - stamp2a 


这 种 表示 法 中 的 第 一 行 与 第 二 行 有 些 重复 ， 因 为 词 条 名 与 词根 的 


形式 是 等 同 的 。 为 了 表达 我 们 提出 如 下 的 规定 : 
如 条 有 词 条 


Lexeme XXX: 


<mor root> = XXX 


yyy 


ZZZ 
RITIK EN 


Lexeme XXX 


yyy 


ZZZ 


这 样 一 来 ，stamp 这 个 词 条 可 简写 为 : 


Lexeme stamp: 


mor regV 


syn_tV 


<Sem> = Stamp2a 


根据 安 表示 的 含义 以 及 有 关 的 简写 规定 ， 这 个 词 条 包含 的 信息 可 
解释 如 下 : 


Lexeme stamp: 
<mor root> = stamp 
«mor formi stem» = stamp 
«mor formi ending» = 8 
«mor form2 stem» = stamp 
«mor form2 ending» = 8 
«mor form3 stem» - stamp 
«mor form3 eding> = s 
«mor form4 stem» = stamp 
«mor form4 ending» - ed 
«mor form5 stem» = stamp 
«mor form5 ending» = ed 
«mor form6 stem» - stamp 
«mor form6 ending» - ed 
«mor form7 stem» = stamp 
«mor form7 ending» = ing 
«syn cat» = V 
«syn argO cat» - NP 
«syn argO case» - nom 


«syn argi cat» = NP 


«syn argi case» = acc 


«sem» - stamp2a 


英语 中 的 规则 动词 都 可 以 用 这 样 的 方法 来 表示 ， 对 于 love 这 样 的 
规则 动词 ， 只 须 考 虑 英语 正 词法 的 有 关 规 定 ， 处 理 一 下 love 后 面 的 e， 
做 起 来 也 不 困难 。 对 于 瑞 语 中 的 不 规则 动词 ， 则 应 该 根据 它们 在 形态 
上 的 特点 ， 对 词法 的 宏 表 示 作 适当 的 调整 和 修改 。 例 如 ，eat 和 give 这 
两 个 动词 ， 它 们 的 单数 第 一 人 称 过 去 时 与 单数 第 二 人 称 过 去 时 相同 ， 
且 具 有 特殊 的 形态 ，eat 的 特殊 形态 为 ate，give 的 特殊 形态 为 gave， 它 
们 的 过 去 分 词 均 加 词尾 en， 而 它们 的 现在 时 与 现在 分 词 形 式 则 与 其 他 
规则 动词 一 样 ， 因 此 ， 我 们 可 以 为 它们 写 一 个 宏 表 示 Macro 
mor_presV， 定 义 如 下 : 


Macro mor presV: 
«mor formi stem» = «mor root» 
«mor formi ending» = 8 
«mor form2 stem» = «mor root» 
«mor form2 ending» = 8 
«mor form3 stem» = «mor root» 
«mor form3 ending» - s 
«mor form4 stem» = «mor form5 stem» 
«mor form4 ending» = € 
«mor form5 ending» = € 
«mor form6 stem» = «mor root» 
«mor form6 ending» - en 
«mor form7 stem» = «mor root» 


«mor form7 ending» = ing 


如 果 我 们 采用 上 述 的 简写 方法 ， 用 宏 表 示 来 记录 词汇 的 词法 信息 
和 句法 信息 ， 用 <sem> 来 记录 词汇 的 语义 信息 ， 那 么 ，die, elapse, eat, 
give, hand, love 等 单词 条 目 可 以 完整 而 简 少 地 表示 如 下 : 


Lexeme 


Lexeme 


Lexeme 


Lexeme 


Lexeme 


die: 

mor  regV 

syn iV 

«sem» = diela. 
elapse: 
mor_regV 


syn_iV 


«sem» = elapseia. 


eat: 

mor_presV 

<mor form4 stem> 
syn iV 

«sem» = eatia. 
eat: 

mor presV 

«mor form4 stem» 
syn tV 

«sem» - eat2a. 
give: 

mor presV 

«mor form4 stem» 
syn tV 


«sem» - give2a. 


ate 


ate 


gave 


Lexeme give: 

mor presV 

«mor form4 stem» = gave 

syn dtV 

«sem» - give3a. 
Lexeme give: 

mor persV 

«mor form4 stem» - gave 

syn. datV 

«sem» - give3b. 
Lexeme hand: 

mor regV 

syn dtV 

«sem» - hand3a. 
Lexeme hand: 

mor regV 

syn. datV 

«sem» - hand3b. 
Lexeme love: 

mor regV 

syn tV 


«sem» - love2a. 
这 样 一 来 ， 我 们 便 可 以 十 分 方便 地 用 复杂 特征 来 描述 词汇 知识 和 


表达 词汇 知识 。 一 个 单词 经 过 了 我 们 在 第 二 章 所 述 的 词法 分 析 之 后 ， 
词尾 和 词 干 都 已 经 确定 ， 再 通过 本 章 中 所 述 的 词汇 知识 的 复杂 竺 征 表 


示 法 ， 用 复杂 特征 来 记录 词汇 知识 ， 这 必定 会 有 效 地 提高 句子 目 动 剖 
析 的 准确 性 。 


剖析 程序 调用 词汇 条 目 中 的 知识 ， 是 通过 合 一 运算 来 进行 的 。 如 
果 我 们 把 输入 句子 中 的 单词 叫做 生词 ， 用 word 来 表示 ， 把 记录 词汇 知 
识 的 词汇 条 目 用 lexeme 来 表示 ， 那 么 ， 我 们 百 先 要 建立 这 个 生词 word 
与 词汇 条 目 lexeme 之 间 的 关系 。 为 此 ， 我 们 必须 在 机 恬 词 典 中 建立 一 
iE (Word Form Clause， 人 简称 WFC) ， 词 形 条 款 中 应 说 明 建 
立 输 入 生词 word 与 词汇 条 有 目 lexeme 时 所 需 的 条 件 。 下 面 是 关于 英语 动 
词 第 三 人 称 单数 现在 时 形式 的 词 形 条 其 WFC: 


WFC third_sing: 
<word mor form> = <lexeme mor form3> 
<word syn> = <lexeme syn> 
<word syn cat> = V 
«word syn arg0 per» = 3 
«word syn argO num» = sing 
<word syn tense> = pres 


<word sem> = <lexeme sem> 


这 个 词 形 条 款 说 明了 和 输入 的 生词 word 应 该 满足 条 艇 中 的 条 件 ， 
BN: 生词 的 形式 与 词汇 条 目的 form3 相 同 ， 生 词 的 syn 与 词汇 条 目的 syn 
相同 ， 生 词 的 syn cat 为 VY， 生 词 的 syn arg0 per 为 3， 生 词 的 syn arg0 num 
为 sing， 生 词 的 syn tense 为 pres， 生 词 的 sem 与 词汇 条 目的 sem 相 同 。 在 
全 查 这 些 条 件 时 ， 要 用 合 一 的 方法 对 生词 的 复杂 特征 与 词汇 条 目的 特 
征 进行 比较 和 运算 。 


例如 ， 如 果 输 入 的 生词 为 loves， 通 过 词法 分 析 ， 我 们 可 知 这 个 生 
词 的 词法 形式 可 分 为 词 干 和 词尾 两 部 分 词 干 是 love， 词 尾 是 s。 


word loves: 


<mor form stem> = love 


<mor form ending> = S 


loves 的 这 些 信息 可 记录 在 一 个 非 循环 有 问 图 线 DAG 上 ， 然 后 ， 对 
生词 loves 的 DAG 中 记录 的 复杂 特征 与 词汇 条 目 love 的 DAG 中 记录 的 复 
杂 特 征 进行 合 一 ， 并 用 合 一 的 方法 来 检查 词 形 条 球 WFC third_sing 的 条 
件 是 否 满 足 。 如 果 这 样 的 合 一 成 功 了 ， 那 么 ， 束 把 合 一 的 结果 记录 到 
生词 loves 的 非 循 环 有 疝 图 线 DAG 中 去 ;如 果 合 一 失败 ， 那 么 ， 束 再 去 


试验 词汇 条 


目 中 其 他 的 WFC。 对 于 我 们 的 例子 ， 由 于 合 一 成 功 ， 


此 ， 在 生词 loves 中 ， 就 记录 上 如 下 的 合 一 结 


word loves: 


<mor 
<mor 
<syn 
<syn 
<syn 
<Syn 
<Syn 
<Syn 
<Syn 


<Syn 


form stem> = love 
form ending> = s 
cat> = V 

tense> = pres 
arg® cat» = NP 
arg0 case> = nom 
arg0 per> = 3 
argo num» = sing 
argi cat» = NP 


arg1 case» = acc 


«sem» - love2a 


loves 上 记录 的 这 些 复杂 特征 对 于 句子 的 剖析 当然 是 非常 有 用 的 。 


AUT ”多 又 多 标记 树 模 型 


在 中 文 信息 处 理 中 ， 复 杂 特 征 也 起 着重 要 的 作用 。 本 节 中 我 们 来 


讨论 汉语 的 复杂 特征 问题 。 


现在 中 文 信息 的 计算 机 处 理 已 经 由 汉字 处 理 阶 段 逐步 地 进入 了 词 
处 理 、 句 处 理 和 篇 章 处 理 的 阶段 。 我 们 不 仅 要 解决 在 计算 机 上 输出 输 
入 汉字 的 问题 ， 还 要 进一步 解决 在 计算 机 上 分 析 和 生成 汉语 句子 和 篇 
章 的 问题 ， 这 些 问题 可 以 统称 为 "汉语 结构 目 动 处 理 ”， 它 是 中 文 信息 
处 理 的 一 个 重要 方面 。 为 此 ， 需 要 我 们 根据 汉语 本 映 的 特点 ， 吸 收 国 
内 外 目 然 语言 处 理 研 究 的 痢 成 有 末 ， 人 研制 汉语 结构 目 动 处 理 的 语言 模 
型 。 


语言 模型 只 是 语 言 客观 事实 的 某 种 近似 物 ， 它 应 该 给 我 们 从 总 体 
上 提供 分 析 和 生成 语言 的 一 般 原 则 和 方法 。 但 是 ， 语 言 模型 并 不 完全 
等 同 于 语言 客观 事物 本 号 ， 语 言 客 观 事物 的 完全 充分 的 描述 和 解释 ， 
还 需要 语言 学 家 作 大 量 的 工作 。 


VEER, BESO Las EAD Lae ae ET ESP, a 
在 计算 机 上 ， 对 汉语 的 句法 与 语义 的 描述 作 了 大 量 的 工作 ， 对 于 汉语 
的 句法 和 语义 特点 有 了 初步 的 认识 。 在 研究 实践 中 ， 我 还 学 习 了 图 论 
的 有 关 原 理 和 形式 语言 理论 ， 吸 收 了 国外 目 然 语言 处 理 的 新 的 研究 成 
果 ， 在 20 世 纪 80 年 代 初 期 提出 了 “汉语 句子 的 多 叉 多 标记 树 形 图 分 析 
法 ”， 这 种 分 析 法 又 叫做 中 文 信息 处 理 的 “多 义 多 标记 树 模 


型 ” (Multiple-branched and Mutiple-labeled Tree Model, iK“ F XIS 
息 MMT 模 型 ?或 "<MMT 模 型 >) 


根据 MMT 模 型 ， 我 于 1981 年 在 法 国 格 勒 诺 布 尔 理科 医科 大 学 应 用 
数学 研究 所 进行 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 翻译 试验 ， 建 立 了 
FAJRA 系 统 ， 从 格 勒 诺 布尔 回 北京 之 后 ， 于 1985 年 我 义 利 用 北京 遥感 
技术 研究 所 的 IBM-4341 计 算 机 ， 在 YM/CMS 操 作 系 统 下 ， 进 行 了 德 一 
汉 机 器 翻译 试验 和 法 一 汉 机 器 翻译 试验 ， 建 立 了 GCAT 德 一 汉 机 器 翻 
译 系统 和 FCAT 法 一 汉 机 器 翻译 系统 。 这 些 试验 都 采用 了 独立 分 析 独 立 
生成 的 办 法 。 在 FAJRA 系 统 中 ， 独 立地 进行 汉语 的 分 析 (分 析 时 不 考 
虑 法 语 、 英 语 、 日 语 、 俄 语 和 德语 ) ， 独 立地 进行 法 语 、 英 语 、 日 
语 、 俄 语 和 德语 的 生成 〈 生 成 时 不 考虑 汉语 ) ， 在 分 析 和 生成 的 接口 
处 ， 进 行 汉语 到 法 语 、 英 语 、 日 语 、 俄 语 和 德语 的 转换 。 在 GCAT 和 
FCAT 系 统 中 ， 独 立地 进行 德语 和 法 语 的 分 析 〈 分 析 时 不 考虑 汉语 ) ， 
独立 地 进行 汉语 的 生成 (生成 时 不 考虑 德语 和 法 语 ) ， 在 分 析 和 生成 
的 接口 处 ， 进 行 德 汉 转换 和 法 汉 和 转换， 并 通过 一 个 统一 的 、 单 独 的 汉 
语 生 成 程序 来 接受 德 汉 转换 和 法 汉 转 换 的 结果 ， 生 成 合格 的 汉语 句子 
作为 译文 输出 。 


通过 FAJRA 系 统 ， 我 们 检验 了 MMT 模 型 分 析 汉 语 的 能 力 ， 通 过 
GCAT 和 FCAT 系 统 ， 我 们 检验 了 MMT 模 型 生成 汉语 的 能 力 ， 实 验 结 果 
是 令 人 满意 的 。 实 践 证 明 ，MMT 模 型 是 汉语 结构 自动 处 理 的 一 个 较 好 
的 模型 。 


MMT 模 型 的 名 称 由 三 个 英文 字母 组 成 。 其 中 的 字母 T 是 英文 Tree 

( 树 ) 的 缩写 ， 表 示 这 是 一 个 “ 树 模 型 "， 第 一 个 字母 M 是 英文 
Multiple-branched (£ X.) 的 缩写 ， 表 示 这 是 一 个 “多 又 的 模型 >， 第 二 
个 字母 M 是 英文 Multiple-labelled (多 标记 ) 的 缩写 ， 表 示 这 是 一 个 “多 


标记 的 模型 ”。 所 以 ，MMT 这 几 个 字 ， 反 映 了 这 个 语言 模型 的 特点 。 
在 这 一 节 中 ， 我 们 按 “ 树 ”`\“ 多 叉 ? 和 “多 标记 ”的 顺序 ， 分 别 来 说 明 这 
个 模型 的 基本 思路 和 方法 。 首 和 完 介 绍 基于 短语 结构 语法 的 “多 叉 树 形 
图 ”， 然 后 解释 “多 标记 ”和 “多 标记 函数 ”的 概念 。 


索 绪 尔 在 其 名 者 《普通 语言 学 教程 》 中 曾经 指出 ， 线 条 性 是 语言 
的 最 重要 的 特征 之 一 ， 语 言 符号 在 本 质 上 是 一 个 前 后 相 续 的 线形 序 
列 。 我 们 在 本 书 第 一 草 已 经 说 明 ， 索 绪 尔 关于 语言 的 线条 性 的 这 种 观 
点 是 片 面 的 。 布 龙 菲 尔 德 等 指出 了 语言 符号 具有 层次 性 ， 他 们 认为 ， 
在 语言 符号 在 结构 上 有 是 一 层 一 层 地 组 织 而 成 的 。 


我 们 在 计算 机 上 对 语言 的 分 析 实 验证 明 : 语言 符号 的 前 后 相 续 的 
线条 特性 只 是 表面 现象 ， 在 每 一 个 句子 的 线性 的 表面 形式 之 下 ， 都 隐 
藏 厦 一 个 多 层次 的 结构 。 这 种 多 层次 的 结构 在 数学 上 最 直观 的 表达 形 
XUL Al ° 


语言 中 的 任何 一 个 句子 的 表层 形式 之 下 都 隐藏 着 一 个 以 上 的 树 形 
图 ， 从 句子 的 表层 形式 的 掩 雷 之 下 来 揭示 其 树 形 图 结构 的 格局 和 数目 
的 多 嘉 ， 正 是 目 然 语 言 结构 分 析 的 重要 任务 。 


例如 , “三 个 学 校 的 实验 员 来 了 ”这 个 语言 片段 的 表层 形式 下 ， 隐 
成 着 两 个 不 同 的 树 形 图 。 如 图 7.14 和 图 7.15 所 示 : 


T1: 


S 
"a Ded 
CLP NP V PART 
> | | 
CARD QTF AP 来 T 


T2: O 
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NP VP 
m rn e 
AP i | 
NP PART N 来 了 
"d | | 
CLP NP 的 实验 员 


图 7.15” 树 形 图 T2 


在 上 面 的 树 形 图 中 ，S 表 示 句 子 ，NP 表 示 名 词 词组 ，VP 表 示 动 词 
词组 ，AP 表 示 形 容 词 词组 ，CLP 表 示 数 词 词组 ，N 表 示 名 词 ，V 表 示 
动词 ，CARD 表 示 数 词 ，QTEF 表 示 量 词 ，PART 表 示 助 词 。 它 们 都 是 树 
形 图 中 的 标记 。 


由 于 T1 和 T2 的 层次 各 不 相同 ， 所 以 ， 它 们 代表 着 不 同 的 结构 。 树 
形 匈 T1 和 T2 的 不 同形 式 ， 显 示 了 在 表面 上 相同 的 线形 形式 之 下 ， 隐 减 
着 实质 上 大 相 庭 径 的 层次 结构 。 


树 形 图 由 结 和 连接 结 的 枝 组 成 。 每 一 个 结 有 一 个 标记 ， 其 中 ， 有 
的 标记 是 表示 词组 类 型 和 词类 的 ,， 如 S、NP、VP、V、N、CARD、 
PART 等 ， 它 们 从 来 不 出 现在 具体 的 句子 的 线形 符号 串 之 中 ， 称 之 为 非 
终极 标记 ; 有 的 标记 是 表示 语言 中 具体 的 词 的 ， 如 “学 校 >、“ 实 验 
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线形 符号 串 ， 称 之 为 终极 标记 。 


树 形 图 中 各 个 结 点 之 间 ， 有 两 种 关系 值得 注意 : 一 种 是 文 配 头 
系 ， 一 种 是 前 于 关系 。 


如 宁 在 树 形 图 中 从 结 点 x 到 结 点 y 的 所 有 的 校 都 有 同一 的 方向 ， 那 
么 ， 我 们 就 说 结 点 x 文 配 结 点 y。 例如， 在 图 7.14 的 树 形 图 T1 中 ， 标 有 
AP 的 结 点 文 配 着 标 有 “的 ”的 结 点 ， 因 为 连接 结 点 AP 与 结 点 “的 ”的 校 都 
一 律 从 较 高 的 结 点 AP 下 降 到 较 低 的 结 点 “的 ”。 但 是 ， 标 有 VP 的 结 点 不 
文 配 标 有 “的 ”的 结 点 ， 因 为 连接 这 两 个 结 点 的 枝 要 首先 从 结 点 VP 上 升 
到 结 点 S95， 再 从 结 点 S 通 过 上 下 不 同 的 两 个 结 点 NP、 结 点 AP 以 及 结 点 
PART 下 降 到 结 点 “的 ”。 当 结 点 x 支配 结 点 y 时 ， 结 点 y 束 叫做 结 点 x 的 后 
f (descendant) ° 


如 果 结 点 x 与 结 点 y 是 相 异 的 ， 结 点 x 文 配 结 点 y， 而 且 ， 结 点 x 与 结 
点 y 之 间 没 有 男 一 个 相 异 的 结 点 ， 那 么 就 说 ， 结 点 x 直接 支配 结 点 y。 在 
图 7.14 的 树 形 图 T1 中 ， 标 有 AP 的 结 点 直接 支配 标 有 PART 的 结 点 ， 但 
不 直接 支配 标 有 “的 ”的 结 点 。 当 结 点 x 直接 支配 结 点 y 时 ， 结 点 y 就 叫做 
结 点 x 的 直接 后 诊 或 儿子 。 被 同一 个 结 点 直接 支配 的 相 异 的 结 点 ， 叫 做 


兄弟 。 图 7.14 的 树 形 图 T1 中 ， 标 有 AP 的 结 点 有 两 个 直接 后 裔 ， 即 在 AP 
之 下 的 标 有 NP 的 结 点 和 标 有 PART 的 结 点 ，AP 结 点 下 的 NP 和 PART 两 
个 结 点 是 兄弟 。 文 配 关 系 中 不 被 任何 其 它 的 结 点 支配 的 结 点 ， 叫 做 根 

(root) 。 在 图 7.14 中 ， 标 有 S 的 结 点 就 是 根 。 被 其 它 结 点 支配 而 不 支 
配 任何 其 它 结 点 的 结 点 ， 叫 做 时 (leaves) 。 图 7.14 中 ， 标 有 终极 标 
人 的 那些 结 点 都 是 叶 。 一 般 说 米 ， 树 形 图 
是 从 上 到 下 画 出 的 ， 所 以 ， 根 总 是 在 顶部 ， 叶 总 是 在 底部 。 


树 形 图 中 的 两 个 结 点 ， 只 有 当 它 们 之 间 没 有 文 配 关 系 的 时 候 ， 才 
能 在 从 左 到 右 的 方 同 上 排序 。 这 时 ， 这 两 个 结 点 之 间 ， 就 存在 前 于 关 
系 ， 左 边 的 结 点 前 于 右边 的 结 点 。 在 图 7.14 的 树 形 图 T1 中 ， 标 
有 “三 ”的 结 点 前 于 标 有 VP 的 结 点 以 及 所 有 人 被 VP 文 配 的 结 点 ， 因 为 结 
点 “三 ?与 结 点 YP 之 间 不 存在 文 配 关系 。 但 是 ， 标 有 “三 ”的 结 点 不 能 前 
于 文 配 它 的 CARD 与 CLP 等 结 点 。 可 见 ， 支配 关系 同 从 左 到 右 的 前 于 
关系 是 互相 排 不 的 。 也 就 十 说 ， 在 树 形 图 中 ， 如 果 两 个 结 点 x 与 y 之 间 
存在 前 于 关系 ， 那 么 ，x 与 y 之 间 必 定 不 能 存在 文 配 关系 ， 并 且 ， 如 采 
结 点 X 前 于 结 点 Y% 那 么 ， 由 结 点 X 文 配 的 所 有 的 结 点 都 前 于 由 结 点 y 文 配 
的 所 有 的 结 点 。 


根据 树 形 图 的 这 些 性 质 ， 我 们 从 中 可 以 看 出 ， 一 个 树 形 图 可 以 给 
我 们 提供 如 下 五 个 方面 的 语言 信息 


第 一 ， 句 子 中 所 包含 的 单词 数目 : 树 形 图 中 叶 的 数目 ， 便 是 句子 
中 所 包含 的 单词 的 数目 。 在 图 7.14 的 树 形 图 T1 中 ， 有 7 个 叶 ， 因 此 ， 句 
子 包含 的 单词 数 为 7。 


第 二 ， 句 子 中 各 个 单词 的 词 形 ; 树 形 图 中 叶 上 的 终极 标记 ， 就 是 
句子 中 单词 的 词 形 。 在 图 7.14 的 树 形 图 T1 中 ， 句 子 中 单词 的 词 形 分 别 
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第 三 ， 句 子 中 各 个 单词 的 顺序 : 我 们 只 要 把 树 形 图 的 各 个 叶 ， 按 
从 左 到 右 的 前 于 关系 排列 起 来 ， 束 可 以 得 到 该 树 形 图 所 表示 的 句子 的 
词 序 。 在 图 7.14 的 树 形 图 T1 中 ， 把 各 个 叶 按 从 左 到 右 的 顺序 排列 起 
来 ， 便 得 到 了 “三 个 学 校 的 实验 员 来 了 ”这 样 的 词 序 。 显 而 易 见 ， 这 些 
叶 之 间 是 不 存在 文 配 关系 的 。 


第 四 ， 句 子 的 层次 : 树 形 图 T1 和 T2 的 层次 各 不 相同 ， 图 中 不 同 的 
文 配 关 系 和 分 层 结构 直观 地 表示 了 这 种 不 同 。 


第 五 ， 句 子 中 各 个 成 分 的 词组 类 型 信息 和 词类 信息 : 在 树 形 图 
中 ， 每 一 个 结 点 有 一 个 标记 ， 结 点 与 标记 之 间 的 这 种 对 应 关系 ， 可 以 
用 标记 函数 L 来 表示 。 


标记 函数 直 可 写 为 : 
lx) y 


其 中 ，x 表 示 结 点 ，y 表 示 结 点 x 相应 的 标记 。 显 然 ， 在 图 7.14 的 树 形 图 
中 ， 一 个 结 点 只 对 应 于 一 个 标记 ， 因 此 ， 标 记 画 数 L 只 是 一 个 单 值 瑟 
数 ， 这 种 树 形 图 只 是 一 个 音标 记 树 形 图 。 在 单 标 记 树 形 图 中 ， 非 终极 
标记 表示 词组 类 型 信息 和 词类 信息 ， 终 极 标 记 表 示 具 体 的 单词 。 由 于 
这 种 单 标记 树 形 图 的 每 一 个 结 点 只 有 一 个 标记 ， 它 表示 的 语言 信息 是 
极为 有 限 的 。 


由 此 可 见 ， 单 标记 树 形 图 可 以 给 我 们 提供 天 于 句子 中 的 词 数 、 词 
形 、 词 序 、 层 次 等 句子 的 几何 值 ， 它 提供 的 几何 值 是 比较 全 面 的 ， 但 
是 ， 它 提供 的 代数 值 则 十 分 有 限 ， 我 们 只 能 从 中 了 解 到 词组 类 型 信息 


和 词类 信息 ， 而 不 能 了 解 到 句法 功能 、 语 义 天 系 、 人 逻辑 关系 等 重要 的 
语言 信息 。 这 是 单 标记 树 形 图 的 一 大 缺陷 。 


我 国 许多 语言 学 家 根据 汉语 的 特点 ， 提 出 了 汉语 语法 中 的 “层次 分 
析 法 ”。 这 种 层次 分 析 法 实质 上 就 是 用 单 标 记 树 形 图 表示 句子 结构 的 一 
种 方法 。 不 过 ， 由 于 汉语 句子 中 各 个 成 分 的 句法 功能 十 分 重要 ， 在 这 
种 层次 分 析 法 中 ， 标 记 不 是 采用 NP、VP 等 “词组 类 型 ”和 N、V 等 “ 词 
类 ”范畴 ， 而 是 用 “句子 成 分 ”这样 的 范畴 ， 如 主语 、 谓 语 、 宾 语 、 定 
语 、 状 语 、 补 语 等 等 ， 从 而 把 句子 或 词组 的 结构 分 成 主 请 结构 、 述 宾 
结构 、 壕 补 结构 、 偏 正 结 构 、 联 合 结构 等 等 ， 这 在 一 定 程度 上 体现 了 
汉语 句法 结构 的 特点 。 但 是 ， 尽 管 我 国语 言 学 家 作 了 这 样 的 改进 ， 汉 
语 的 层次 分 析 法 所 表示 的 有 关 句 子 的 代数 值 仍然 是 十 分 有 限 的 。 


这 种 单 标记 树 形 图 的 表示 方法 与 乔 姆 斯 基 的 上 下 文 无 关 短 语 结构 
语法 有 着 非常 密切 的 关系 


在 第 一 章 中 我 们 讲 过 ， 乔 姆 斯 基 把 上 下 文 无 关 的 短语 结构 语法 G 
定义 为 一 个 四 元 组 
G= (VN, VT, S, P) 
其 中 ，VN 表 示 终 极 符 号 ， 它 们 不 能 出 现在 句子 生成 的 终点 ;VT 表示 
终极 符号 ， 它 们 只 能 出 现在 句子 生成 的 终点 ， 它 们 就 是 具体 的 词 ; S 
是 初始 符号 ， 它 是 句子 生成 的 起 点 ;，P 是 重 写 规则 ， 如 果 G 是 短语 结构 
语法 ， 则 P 的 形式 为 


A-@ 


这 个 公式 中 ，A 坪 单独 的 非 终极 符号 ，o 有 是 符号 串 ， 它 可 以 由 非 终 极 符 
号 组 成 ， 也 可 以 由 终极 符号 组 成 ， 也 可 以 由 非 终 极 符号 和 终极 符 喜 混 
合 组 成 。 


为 了 叙述 方便 ， 我 们 在 本 和 中 ， 把 上 下 文 无 关 短语 结构 语法 徐 称 
为 短语 结构 语法 (Phrase Structure Grammar， 简 写 为 PSG) ° 


例如 ， 我 们 可 以 提出 这 样 的 短语 结构 语法 G= (VN, VT, S, P) 来 
生成 汉语 句子 “三 个 学 校 的 实验 员 来 了 ”。 


VN = {S, NP, VP, CLP, AP, N, V, CARD, QTF, PART} 


VT = {学 校 ， 实 验 员 ， 三 , 个, 来 , BJ, T} 
S = (S) 
P: 


. S > NP + VP 

. NP > CLP + NP 

. VP > V + PART 

. CLP > CARD + QTF 
. NP > AP +N 

. AP > NP + PART 
. NP > AP + NP 


. NP -— N 
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. No { 学 校 ， 实 验 员 } 
. V > {来 } 
11. CARD > {=} 


HB 
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12. QTF > {个 } 
13. PART > (H9, T} 


使 用 这 些 重 写 规 则 ， 从 初始 符号 $ 开 始 进行 生成 ， 可 以 得 出 如 下 
的 生成 过 程 : 


S 所 用 规则 
NP + VP 1 
CLP + NP + VP 2 
CARD + QTF + NP + VP 4 
CARD + QTF + AP +N + VP 5 
CARD + QTF + NP + PART +N + VP 6 
CARD + QTF + N + PART +N + VP 8 
CARD + QTF +N + PART +N + V + PART 3 
= + QTF +N + PART +N + V + PART 11 


= + 4% +N + PART+N + V + PART 12 
= + M + SR + PART +N + V + PART 9 
= + 个 + 学 校 + AY +N + V + PART 13 
= + 个 + 学 校 + 的 + 实验 员 + V + PART 9 
= + 个 + 学 校 + 的 + 实验 员 + 来 + PART 10 
三 + 个 + 学 校 + 的 + 实验 员 + 来 + 了 13 


这 样 的 生成 过 程 所 生成 的 句子 的 层次 结构 ， 与 树 形 图 T1 的 层次 结 
构 相 应 。 


我 们 也 可 以 按照 另外 的 顺序 来 使 用 重 写 规则 ， 得 到 线形 顺序 相同 
而 层次 不 同 的 男 一 个 句子 : 


S 所 用 规则 


NP + VP 1 

AP + NP + VP 7; 

NP + PART + NP + VP 6 

CLP + NP + PART + NP + VP 2 

CARD + QTF + NP + PART + NP + VP 4 
CARD + QTF + N + PART + NP + VP 8 
CARD + QTF + N + PART +N + VP 8 
CARD + QTF + N + PART +N + V + PART 3 
= + QTF + N + PART +N « V + PART 11 
三 + 个 +N+PART+N + V + PART 12 
= + 个 + 学 校 + PART +N + V + PART 9 
三 + 个 + 学 校 + 的 +N + V + PART 13 
三 + 个 + 学校 + 的 + 实验 员 + V + PART 9 
三 + 个 + 学校 + 的 + 实验 员 + 来 + 了 PART 10 
三 + 个 + 学 校 + 的 + 实验 员 + 来 + 了 13 


按 这 样 的 生成 顺序 生成 的 句子 的 层次 结构 ， 与 树 形 图 T2 的 层次 结 
构 相 应 。 


可 见 ， 按 照 不 同 的 生成 顺序 ， 可 以 生成 层次 结构 截然 不 同 而 线形 
结构 完全 相同 的 句子 来 。 


乔 姆 斯 基 证 明了 ， 短 语 结构 语法 是 一 种 生成 目 然 语 言 的 形式 化 方 
这 种 方法 不 仅 能 揭示 出 句子 中 单词 的 线形 顺序 ， 而 且 还 能 揭示 出 
， b o 


这 种 方法 从 理论 上 说 明了 ， BATT eA AA H, 不 仅 要 
看 组 成 这 两 个 句子 的 词 数 和 是否 相同 ， 词 形 是 否 相同 ， 词 序 旦 否 相同 ， 
而 且 还 要 看 这 两 个 句子 的 层次 结构 是 itn 。 因 此 ， 乔 姆 斯 基 的 短语 
结构 语法 比 之 于 一 般 只 从 词 序 来 说 明 句 法 结构 的 语言 理论 要 深刻 得 

多 。 我 们 可 以 把 短语 结构 语法 看 成 是 层次 分 析 法 在 数学 上 的 解释 ， 在 

这 个 意义 上 ， 我 们 可 以 说 ， 短 语 结 构 语法 是 层次 分 析 法 的 理论 基础 。 


层次 分 析 法 虽然 早 在 1947 年 就 由 美国 语言 学 家 威 尔 斯 (K.S. Wells) $e 
出 ,但 是 ， 直 到 20 世 纪 50 年 代 初 期 ， 乔 姆 斯 基 才 从 数学 上 疗 格 地 论证 
了 这 种 语言 分 析 法 的 原理 。 


我 们 在 第 一 章 曾 经 指出 ， 短 语 结构 语法 与 单 标记 树 形 图 之 间 存 在 
着 有 趣 的 对 应 关系 ， 我 们 在 这 里 进一步 举例 来 说 明 这 种 对 应 关系 。 


设 G= (VN,VLS,P) 是 短语 结构 语法 ， 如 果 有 某 个 单 标记 树 形 图 
满足 如 下 的 条 件 ， 那 么 ， 这 个 单 标记 树 形 图 就 是 该 短语 结构 语法 G 的 
推导 树 : 


Q) 树 形 图 中 的 每 一 个 结 点 有 一 个 标记 ， 这 个 标记 或 者 是 语法 G 中 
的 非 终极 符号 ， 或 者 是 终极 符号 ， 也 就 是 说 ， 这 个 标记 是 集合 
{ VNUVT } 中 的 符号 ; 


@ 树 形 图 的 根 的 标记 是 语法 G 中 的 初始 符号 $; 


GO 如 果树 形 图 的 结 点 na 至少 有 一 个 异 于 其 本 身 的 后 裔 ， 并 有 标记 和 A， 
那么 ，A 必 定 是 语法 G 中 的 非 终极 符号 ， 即 AGE {VN} ; 


由 如 果树 形 图 的 结 点 nl1, n2, .., nk 是 结 点 n 的 后 裔 ， 从 左 向 右 排 
列 ， 其 标记 分 别 为 A1, A2, ..., Ak， 也 就 是 树 形 图 中 有 图 7.16 这 样 的 子 
MEA, IA, A > ALA2... Ak 必 定 是 语法 G 的 重 写 规则 P 中 的 一 条 
规则 。 


A l A2 s.e...’ Ak 


图 7.16“ 子 树 形 图 


我 们 来 比较 图 7.14 和 图 7.15 中 的 树 形 图 与 我 们 刚才 所 示 的 短语 结构 
语法 G 。 


在 图 7.14 所 示 的 单 标记 树 形 图 T1 中 ， 根 的 标记 是 S， 标 记 为 S, NP, 
VP, CLP, AP, N, V, CARD, QTF, PART 的 结 点 至 少 都 有 一 个 异 于 其 本 身 
的 后 裔 ， 所 以 ， 它 们 都 属于 VN， 是 非 终极 符号 ; 结 点 S 的 直接 后 裔 是 
NP 和 VP， 所 以 ，S$ > NP + VP 是 P 中 的 重 写 规则 ， 结 点 VP 的 直接 后 裔 
是 V 和 PART 所 以 ，VP > V + PART 是 P 中 的 重 写 规 则 ， 结 点 NP 的 直接 
后 裔 是 CLP 和 NP 所 以 ，NP > CLP + NP 是 P 中 的 重 写 规 则 ， 等 等 。 
此 可 见 ， 图 7.14 中 的 单 标 记 树 形 图 T1， 满 足 短语 结构 语法 G 的 推导 树 
所 需要 的 各 个 条 件 ， 它 就 是 语法 G 的 推导 树 。 


同 理 ， 可 以 证 明 图 7.15 中 的 单 标记 树 形 图 T2 也 是 短语 结构 语法 G 
的 推导 树 。 


由 此 可 以 看 出 ， 单 标记 树 形 图 与 作为 层次 分 析 法 基础 理论 的 短语 
结构 语法 有 着 对 应 关系 ， 所 以 ， 单 标记 树 形 图 与 层次 分 析 法 有 者 共同 
之 处 。 这 种 单 标 记 树 形 图 ， 当 然 不 可 能 全 面 地 表示 句子 中 涉及 多 个 方 


面 的 、 丰 宇多 彩 的 语言 信息 。 


短语 结构 语法 的 重 写 规则 形式 为 


A0 


其 中 ，@ 和 是 符号 串 ， 它 可 以 由 两 个 符号 组 成 ， 也 可 以 由 一 个 符号 组 
成 ， 也 可 以 由 两 个 以 上 的 符号 组 成 。 可 见 ， 短 语 结构 语法 是 容许 多 分 
的 ， 二 分 只 不 过 是 多 分 的 一 种 特殊 情况 而 已 。 


在 语言 学 史上 ， 不 少 语言 学 家 指出 过 语法 结构 具有 二 分 的 特性 。 
我 国 著名 语言 学 家 马 建 忠 在 《 马 氏 文通 》 中 提出 “两 端 两 语 说 "， 指 
出 :“ 盖 意 非 两 端 不 明 ， 而 句 非 两 语 不 成 ”。 美国 语言 学 家 奈 达 (ELA. 
Nida) 在 《形态 学 》 一 书 中 指出 :“ 根 据 经 验 ， 我 们 发 现 语言 结构 倾向 
于 二 分 "(2 。 美 国语 言 学 家 弗 里 斯 (C. C. Fries) 在 《英语 结构 》 一 书 
中 指出 :“ 在 英语 里 ， 一 个 层次 通常 只 有 两 个 成 分 ， 当 然 ， 每 一 个 成 分 
都 可 以 由 好 几 个 单位 组 成 ， 不 过 在 同一 个 层次 上 ， 结 构 的 直接 成 分 通 
常 只 有 两 个 "四 。 


齐 姆 斯 基 根 据 目 然 语 言 结构 的 这 种 二 分 特性 ， 把 短语 结构 语法 的 
重 写 规则 形式 


改写 为 
A > BC 
Aa 


这 样 的 二 元 形式 ， 其 中 ，A, B, C 都 是 非 终 极 符号 ，a 是 终极 符号 。 前 一 
个 式 子 表 示 非 终极 符号 A 被 重 写 为 非 终极 符 号 B 和 非 终极 符号 C， 也 就 
是 A 被 二 分 为 B 和 C; 后 一 个 式 子 表示 非 终极 符号 A 被 重 写 为 终极 符号 
a， 也 就 是 把 非 终极 符号 重 写 为 终极 符号 。 所 以 ， 这 样 的 二 元 形式 反映 
的 目 然 语 言 的 二 分 特性 。 这 是 乔 姆 斯 基 把 形式 语言 学 中 的 短语 结构 语 
法 应 用 于 目 然 语言 时 所 采取 的 变通 方式 ， 并 没有 改变 短语 结构 语法 的 
实质 。 具 有 这 种 二 分 特性 的 重 写 规 则 ， 在 形式 语言 理论 中 被 称 为 乔 姆 
斯 基 苑 式 (Chomsky Normal Form) 


乔 姆 斯 基 并 且 从 理论 上 证 明了 ， 任 何 具 有 形式 为 A > @ 的 重 写 规 
则 的 短语 结构 语法 ， 都 可 以 改写 为 具有 二 分 特性 的 乔 姆 斯 基 范 式 由 。 
这 告诉 我 们 ， 二 分 的 乔 姆 斯 基 苑 式 与 多 分 的 短语 结构 语法 的 一 般 的 重 
写 规 则 ， 并 没有 什么 实质 性 的 区 别 ， 它 们 都 可 以 表示 语言 结构 的 层次 


我 国 首 和 完 采 用 层次 分 析 法 的 语法 著作 十 丁 声 树 等 人 的 《语法 讲 
话 》。 该 书 指出 ， 汉 语 中 有 五 种 句法 结构 ， 即 主 请 结构 、 补 充 结构 、 
动 宾 结构 、 偶 正 结构 、 并 列 结构 , “并 列 结构 可 以 由 两 个 以 上 的 成 分 组 
成 ， 其 他 四 种 成 分 是 由 两 个 成 分 组 成 的 "， 因 此 ,“ 对 并 列 结构 采取 ' 多 
分 法 *"， 其 他 四 种 结构 采取 ‘二 分 法 '”。《 语 法 讲话 》 的 这 种 “二 分 
法 ”和 “多 分 法 ” 相 结 合 的 原则 ， 古 完全 符合 短语 结构 语法 重 写 规则 的 基 
本 原则 的 。 


可 是 ， 在 我 国语 言 学 界 ， 不 少 的 层次 分 析 法 论 者 主张 ， 层 次 分 析 
法 要 坚持 二 分 法 ， 不 能 搞 多 分 法 。 甚 至 有 人 提出 ， 多 分 法 就是 中 心 词 
分 析 法 ， 二 分 法 就 是 层次 分 析 法 ， 把 二 分 法 与 多 分 法 对 立 起 来 (详细 
论点 ， 可 参看 高 更 生 《 汉 语 语 法 问题 试 说 》， 山 东 人 民 出 版 社 出 
版 ，。 这 样 的 看 法 ， 在 理论 上 是 缺乏 根据 的 。 乔 姆 斯 基 在 形式 语言 理 
论 的 研究 中 ， 早 已 指出 了 二 分 法 与 多 分 法 在 本 质 上 的 联系 。 有 既然 二 分 
法 与 多 分 法 在 理论 上 坪 一致 的 ， 我 们 为 什么 非 要 拘泥 于 二 分 法 ， 无 端 
地 把 多 分 法 排斥 在 层次 分 析 法 的 范围 之 外 呢 ? 


汉语 句法 中 有 一 些 结构 采用 多 分 法 来 描述 更 为 合理 和 方便 。 例 
如 ,“ 状 语 + 谓语 + 宾语 ”这样 的 结构 ， 其 中 的 “状语 ?是 修饰 “谓语 + 宾 
语 ” 的 呢 ， 还 是 只 修饰 “谓语 ”的 呢 ， 从 语感 上 苹 不 好 判定 的 ， 在 采用 二 
分 法 来 分 析 时 就 难免 举 棋 不 定 。 这 时 ， 我 们 往往 会 得 出 两 个 结构 不 同 


的 树 形 图 。“ 我 们 认真 学 习 汉 语 ” 这 个 句子 ， 用 二 分 法 可 得 出 如 下 两 个 
树 形 图 T3 和 T4: 
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图 7.17 树 形 图 T3 


树 形 图 T3 中 ，PRON 表 示 代 词 ，ADJ 表 示 形 容 词 ， 汉 语 中 形容 词 
作 状 语 是 普遍 现象 。 这 里 ， 形 容 词 ADJ 与 动词 V 组 成 动词 词组 VP， 在 
VP 中 ，ADJ 作 V 的 状语 ， 直 接 修饰 V。 


树 形 图 T4 中 ，ADJ 不 直接 修饰 动词 V， 而 是 直接 修饰 由 V 和 N 组 成 
的 动词 词组 VP。 树 形 图 T4 与 树 形 图 T3 的 结构 是 截然 不 同 的 。 但 是 ， 这 
两 种 结构 上 不 同 的 树 形 图 并 没有 导致 语义 上 的 差别 ， 不 论 分 析 为 哪 种 
树 形 图 ， 其 语义 都 是 一 样 的 。 因 此 ， 这 种 结构 上 的 差别 就 没有 多 大 的 
作用 了 ， 它 只 会 引起 分 析 时 的 举 棋 不 定 ， 使 分 析 者 进入 困境 。 


为 了 避免 分 析 时 举 棋 不 定 的 困境 ， 我 们 采用 多 分 法 ， 一 次 就 把 VP 
分 解 为 “ADJ+V +N”。 如 图 7.19 中 的 树 形 图 T5 所 示 。 
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图 7.19” 树 形 图 T5 


树 形 图 T5 采 用 多 分 法 ， 只 得 出 一 种 分 析 结 采 ， 树 形 图 的 层次 结构 与 它 
的 语义 解释 是 完全 一 致 的 。 由 此 可 以 看 出 采用 多 分 法 的 好 处 。 


在 树 形 图 T5 中 ， 我 们 使 用 了 多 分 形式 的 重 写 规则 


VP > ADJ+V+N 


把 VP 一 次 融 一 分 为 三 。 这样 的 多 分 形式 的 重 写 规 则 ， 可 以 根据 乔 姆 斯 
基 范 式 的 要 求 改 写 为 二 分 形式 的 重 写 规则 。 


如 果 我 们 把 VP > ADJ+V+N 改 写 为 如 下 两 个 二 分 形式 的 重 写 规 
Wl: 


VP > VP + NP 
VP > ADJ+V 
那么 ， 我 们 便 可 以 得 到 树 形 图 T3 


如 果 我 们 把 VP > ADJ- V +N 改写 为 如 下 的 两 个 二 分 形式 的 重 写 
规则 : 


VP > ADJ + VP 
VP> V+N 
那么 ， 我 们 便 可 以 得 到 树 形 图 T4 


树 形 图 T5 不 是 一 个 二 又 树 ， 而 是 一 个 多 叉 树 。 显 然 ， 多 又 树 比 二 
又 树 更 具有 一 般 性 ， ages 个 以 上 的 二 叉 树 。 这 说 明 多 又 树 
与 二 叉 树 是 等 价 的 。 所 谓 * 多 又 >?， 可 以 是 “三 又 ”\“ 四 又 ?， 也 可 以 
是 
义 ” 的 “多 ”等 于 “二 ”时 的 一 种 特殊 情况 娃 了 。 


当然 ， 在 采用 多 又 树 来 描述 汉语 句子 时 ， 能 用 二 分 法 的 地 方 ， 我 
们 仍然 根据 传统 采用 二 分 法 。 但 是 ， 在 下 述 情 况 下 ， 为 了 描述 的 方 
便 ， 我 们 应 该 采用 多 分 法 : 


(D 状 谓 宾 式 ， 例如 
认真 | 学 习 | 汉语 


RM: 例如 

我 们 | 请 | 他 | 吃饭 

(3) 双 宾语 : 例如 

给 | 弟 种 | 一 本 书 

由 含有 多 项 并 列 修饰 语 的 偏 正 结构 : 例如 
些 | 与 此 有 关 的 | 重要 | 问题 

GERA: 例如 

衣服 洗 得 | 干净 

但 述 补 结构 不 作 谓 语 时 ， 述 语 与 补 语 之 间 采 用 二 分 法 . 
(9) 框 形 结构 : 例如 

在 | 工作 | 中 


在 框 形 结构 中 ， 介 词 “ 在 ”和 方位 词 “中 ”构成 一 个 框 子 “ 在 一 中 ”， 
中 间 可 以 插入 名 词 词组 或 动词 词组 。 


在 这 些 情况 下 ， 采 用 多 分 法 的 好 处 是 : 


第 一 ， 可 以 更 加 合理 地 解释 语言 现象 : 例如 ， 前 面 所 举 的 “认真 学 
习 汉 语 ?” 之 例 中 ， 如 果 采 用 二 分 法 ， 很 难 决 定 是 分 析 为 “认真 | 学 习 汉 
语 ”， 还 是 分 析 为 “认真 学 习 | 汉 语 ?”， 采 用 多 分 法 分 析 为 "认真 | 学 习 | 汉 
语 ”， 便 可 摆脱 这 种 举 棋 不 定 的 困境 。 又 如 ， 在 “请 他 吃 
饭 * 中 ,，“ 他 ” 作 “ 请 ”的 宾语 ， 义 同时 作 “ 有 吃饭” 的 主语 ， 一 壬 而 二 任 ， 如 
果 采 用 二 分 法 ， 在 树 形 图 上 束 会 发 生 交 义 现 象 ， 破 坏 了 树 形 图 的 结 
构 ， 采 用 多 分 法 分 析 为 “请 | 他 | 吃饭 ”*"， 便 不 会 发 生 交 义 现象 。 表 如 ， 
在 “给 第 第 一 本 书 ” 中 , “给 ”有 两 个 宾语 ， 采 用 多 分 法 来 分 机 ， 也 防止 
了 树 形 图 中 出 现 交 叉 现 象 。 


第 二 ， 可 以 在 编制 程序 时 减少 程序 量 : 一 些 长 句子 ， 如 果 采 用 二 
分 法 ， 层 次 会 多 到 十 层 八 层 ， 计 算 机 在 处 理 这 样 的 多 层次 的 树 形 图 
时 ， 和 需要 逐 层 进行 搜索 ， 程 序 的 编写 比较 复杂 ， 运 算 量 也 很 大 。 而 采 
用 多 分 法 ， 大 大 地 减少 了 层次 ， 提 高 了 计算 机 处 理 语言 的 工作 效率 。 


第 三 ， 可 以 抓 住 句子 的 主干 ， 把 句子 的 格局 清楚 地 显示 出 来 ， 便 
于 检查 和 研究 。 


可 见 ， 采 用 多 又 树 来 表示 句子 的 几何 值 ， 既 可 以 反映 出 句子 的 层 
次 关系 ， 又 死 服 了 二 又 树 的 大 干 缺点 。 多 又 树 在 理论 上 符合 短语 结构 
语法 的 要 求 ， 在 实践 上 也 更 为 合理 ， 更 为 有 效 ， 更 为 方便 。 


然而 ， 多 又 树 实 质 上 只 是 二 又 树 的 一 般 表 达 形 式 ， 并 没有 跳出 乔 
姆 斯 基 短 语 结构 语法 的 框 并 ， 它 对 基于 乔 姆 斯 基 苑 式 的 二 又 树 的 改 
进 ， 是 完全 在 短语 结构 语法 的 重 写 规 则 的 一 般 形 式 A > o 的 容许 范围 
内 进行 的 。 所 以 ， 中 文 信息 MMT 模 型 中 第 一 个 字母 M (Multiple- 
branched) 和 最 后 一 个 字母 T (Tree) 所 表示 的 “多 又 树 形 图 ”， 实 质 上 
仍然 是 一 种 短语 结构 语法 ， 它 并 没有 对 于 乔 姆 斯 基 的 短语 结构 语法 有 
什么 重要 的 改进 。 


中 文 信 息 MMT 模 型 的 关键 之 处 是 第 二 个 字母 MY， 即 Multiple- 
labeled， 世 就 是 “多 标记 ”。“ 多 标记 ” 才 是 MMT 的 特色 和 要 害 之 所 在 。 


在 MMT 模 型 中 ， 我 们 提出 了 “多 标记 函数 ” (multiple-labeled 
function) 的 概念 。 


MMT 模 型 采用 多 标记 范 数 来 代 蕉 短语 结构 语法 的 单 标 记 函 数 。 多 
标记 图 数 L 可 表示 如 下 : 


l( x)= 


yn 
EISEN Z ica, WER Pa Sax, I BEDUDONE SET 
一 个 标记 ， 而 是 对 应 于 寿 干 个 标记 {y1, y2, ……, yn}。 在 同一 个 结 点 上 
采用 多 个 标记 ， 大 大 地 提高 了 树 形 图 的 标记 功能 ， 使 得 树 形 图 的 各 个 
结 点 上 ， 都 能 记录 尽 可 能 多 的 语法 语义 信息 。 


一 般 地 说 ， 在 一 个 短语 结构 语法 G= (VN, VT, S, P) 中 ， 生 成 式 P 
具有 A > o@ 的 形式 ， 其 中 ，A 是 单独 的 非 终极 符号 ，o 是 在 VN U VT 上 
的 符号 串 ， 在 这 样 的 短语 结构 语法 中 ，A 的 标记 只 有 一 个 ， 与 这 样 的 
短语 结构 语法 相对 应 的 树 形 图 ， 只 能 是 一 个 单 标记 的 树 形 图 。 由 于 标 
记 是 句子 中 语言 信息 的 记录 者 ， 在 单 标 记 树 形 图 中 所 记录 的 语言 信息 
十 分 简单 。 


这 样 的 短语 结构 语法 ， 它 的 分 析 能 力 有 限 ， 分 析 时 区 别 不 了 许多 
貌似 相同 而 实质 向 异 的 结构 ， 它 的 生成 能 力 过 强 ， 篆 第 会 产生 一 些 不 
合 语法 的 句子 或 蚊 义 的 多 子 ， 这 些 致命 的 弱点 ， 都 给 目 然 语言 的 分 析 
和 生成 ， 特 别 是 目 然 语 言 的 目 动 分 析 和 目 动 生成 市 来 极 大 的 困难 。 


由 于 短语 结构 语法 的 这 个 致命 弱点 ， 乔 姆 斯 基本 人 曾 宣 称 ， 短 语 
结构 语法 不 适合 于 以 数学 的 语言 来 描述 目 然 语言 的 句子 结构 ， 对 短语 
结构 语法 持 以 悲观 的 态度 。 


其 实 ， 乔 姆 斯 基 之 所 以 得 出 这 样 悲观 的 结论 ， 是 因为 他 对 短语 结 
构 语 法 的 形式 化 作 了 不 必要 的 限制 ， 规 定 只 使 用 单 标 记 ， 人 为 地 排除 
了 对 多 标记 的 使 用 。 如 果 采 用 多 标记 对 短语 结构 语法 进行 改进 ， 既 可 
以 保留 短语 结构 语法 的 各 种 优点 ， 又 可 以 提高 它 摘 述 目 然 语言 的 能 
力 。 中 文 信息 MMT 模 型 正 是 针对 乔 姆 斯 基 的 短语 结构 语法 的 这 一 致命 
弱点 ， 明 确 地 放弃 单 标记 而 采用 多 标记 ， 大 胆 地 摆脱 了 乔 姆 斯 基 对 短 
语 结构 语法 所 作 的 人 为 限制 ， 使 短语 结构 语法 获得 了 生命 力 。 


由 于 迄今 为 止 的 许多 目 然 语 言 分 析 和 生成 系统 ， 都 是 用 短语 结构 
语法 来 描述 的 ， 而 且 ， 短 语 结构 语法 具有 简洁 明确 、 吻 于 操作 等 优 
态 ， 给 目 然 语言 信息 处 理 的 研究 市 来 了 许多 方便 。 为 了 保持 短语 结构 
语法 本 身 的 各 种 长 处 ， 继 承 已 有 的 研究 成 果 ， 我 们 在 MMT 模 型 中 ， 并 
没有 完全 抛弃 短语 结构 语法 ， 我 们 明确 地 继续 保留 了 基于 短语 结构 语 
法 的 “多 义 树 形 图 ”"， 并 进一步 在 短语 结构 语法 的 基础 上 ， 大 胆 地 用 多 
标记 来 代 礁 单 标记 ， 用 多 标记 范 数 来 代替 单 标 记 画 数 ， 从 而 提高 了 其 
有 限 的 分 析 能 力 ， 限 制 了 其 过 强 的 生成 能 力 ， 有 效 地 克服 了 短语 结构 
语法 的 致命 弱点 ， 保 持 了 短语 结构 语法 的 各 种 长 处 ， 使 得 MMT 模 型 能 
够 充分 地 扬 示 出 句子 中 弄 藏 的 各 种 语法 信息 。 这 是 MMT 模 型 对 短语 结 
构 语 法 改进 的 最 为 天 键 之 处 。 


乔 姆 斯 基 用 单 标记 来 表示 树 形 图 中 结 点 上 所 负载 的 信息 ， 实 际 上 
征 把 这 种 信息 看 成 单元 性 的 、 不 可 分 割 的 、 没 有 内 部 结构 的 原子 
(atom) 。 这 样 的 原子 究竟 可 分 还 是 不 可 分 ? 这 是 一 个 重要 的 理论 问 
题 。 在 现代 物理 学 中 的 原子 结构 理论 的 局 发 之 下 ， 我 们 曾经 想 过 ， 能 


不 能 把 这 种 像 物理 学 中 的 原子 一 样 的 单元 性 的 单 标记 再 进一步 分 割 一 
下 ， 把 它 变 成 一 种 多 元 性 的 、 可 以 进一步 分 割 的 多 值 标记 呢 ? 如 果 把 
单 标记 进一步 分 割 为 多 标记 ， 就 有 可 能 像 物 理学 中 把 原子 进一步 分 害 
为 原子 核 和 外 层 电子 一 样 ， 使 我 们 对 于 语言 的 结构 获得 全 新 的 认识 。 
而 且 ， 如 何 运算 这 种 具有 结构 的 多 标记 ， 就 需要 研究 新 的 运算 方法 ， 
这 也 许 会 导致 计算 语言 学 对 传统 的 数据 运算 方法 提出 挑战 - 


我 们 在 第 一 章 中 说 过 ， 索 绪 尔 在 《普通 语言 学 教程 》 (1916 年 第 
一 版 ) 中 早 就 指出 , “语言 可 以 说 是 一 种 只 有 复杂 项 的 代数 ”。 他 强调 
说 明 ， 每 个 符号 孤立 地 看 ， 可 以 认为 是 简单 项 ， 但 是 从 整体 来 看 ， 则 
都 是 复杂 项 。 索 绪 尔 指出 , “语言 的 实际 情况 使 我 们 无 论 从 哪 一 方面 去 
进行 研究 ， 都 找 不 到 倘 单 的 东西 ， 随 时 随地 都 是 这 种 相互 制约 的 各 项 
要 素 的 复杂 平衡 。” 可 见 ， 索 绪 尔 早 承担 出 了 有 要 用 “复杂 项 ”描述 语言 的 
观点 ， 他 所 说 的 “复杂 项 *， 束 是 我 们 现在 所 说 的 “多 标记 ”。 


然而 ， 索 绪 尔 关于 “复杂 项 ”的 结 越 思想 并 没有 受到 当时 语言 学 界 
的 重视 ， 亏 称 继承 了 索 绪 尔 语言 学 思想 的 美国 描写 语言 学 派 ， 在 他 们 
提出 的 “直接 成 分 分 析 法 ”中 ， 只 采用 简单 特征 来 描述 句子 ， 而 在 齐 姆 
斯 基 的 短语 结构 语法 中 ， 则 更 是 明确 地 用 “ 单 标 记 ” 来 接 述 句子 。 现 
在 ， 当 我 们 用 短语 结构 语法 对 自然 语言 进行 计算 机 处 理 遇 到 重重 困难 
的 时 候 ， 重 温 索 绪 尔 关于 “复杂 项 ”的 思想 ， 不 得 不 由 衷 地 佩服 这 位 学 
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事实 上 ， 当 我 国 的 目 然 语 言 处 理 研究 者 为 了 解决 在 用 短语 结构 语 
法 来 描述 汉语 中 碰 到 的 种 种 问题 ， 正 定 从 索 绪 尔 关于 “复杂 项 ”的 思想 
中 得 到 局 示 ， 才 提出 了 “多 标记 ”的 概念 。 由 此 可 以 看 出 语言 学 的 基础 
理论 对 于 自然 语言 处 理 研究 实 践 的 指导 作用 。 


我 们 提出 “多 标记 ”的 概念 ， 除 了 受到 现代 物理 学 的 原子 结构 理论 
的 启示 和 索 绪 尔 的 语言 学 理论 在 基本 原则 方面 的 引导 之 外 ， 还 有 一 个 
更 重要 的 原因 ， 这 就 古 汉语 本 喘 的 特点 决定 了 汉语 的 搬 述 离 不 开 “ 多 标 
ip^ 如 采 说 ， 在 英语 句子 的 计算 机 处 理 中 有 必要 采用 “多 标记 ”， 那 
么 ， 在 汉语 句子 的 计算 机 处 理 中 ， 采 用 这 种 “多 标记 ”的 必要 性 束 更 加 
明显 了 。 这 是 因为 汉语 的 句子 不 能 只 使 用 词类 或 词组 类 型 等 特征 来 摘 
述 ， 汉 语句 子 各 个 成 分 的 词组 类 型 、 句 法 功能 、 语 义 关系 、 人 逻辑 关系 
之 间 ， 存 在 着 极为 错 综 复 洒 的 关系 ， 如 果 只 使 用 单 标记 ， 束 无 法 区 分 
各 种 皮 义 现象 ， 达 不 到 汉语 目 动 处 理 的 目的 。 


具体 地 说 : 


1. 汉语 句子 中 的 词组 类 型 (或 词类 ) 与 句法 功能 之 间 不 存在 简单 
的 一 一 对 应 关系 。 


用 短语 结构 语法 分 析 英 语 时 ， 对 于 树 形 图 中 的 每 一 个 结 点 ， 只 给 
关于 词组 类 型 或 词类 的 特征 ， 如 S, NP, VP, Det, N, V 等 ， 这 一 般 不 会 碰 
到 很 大 的 困难 。 因 为 在 英语 中 ， 一 旦 把 S 分 解 为 NP 和 和 VP， 那么 ，NP 一 
般 是 主语 ，VP 一 般 是 谓语 ， 形 成 一 个 主 谓 结构 ; 一旦 把 VP 分 解 为 V 和 
NP， 那 么 ，V 一 般 是 述 语 ，NP 一 般 是 宾语 ， 形 成 一 个 述 宾 结 构 ; 句子 
组 成 成 分 的 词组 类 型 和 句法 功能 之 间 存 在 着 比较 简单 的 一 一 对 应 关 
系 。 当 句子 各 个 成 分 的 句法 功能 关系 确定 之 后 ， 也 就 不 难 进一步 确定 
这 些 成 分 之 间 的 语义 关系 和 逻辑 关系 ， 从 而 实现 句子 的 句法 分 析 和 语 
义 分 析 。 


但 是 ， 在 汉语 中 ， 仅 仅 使 用 词组 类 型 (或 词类 ) 这 样 的 标记 是 远 
远 不 够 的 ， 因 为 汉语 句子 中 的 词组 类 型 (或 词类 ) 与 句法 功能 之 间 不 
存在 简单 的 一 一 对 应 关系 。 一 个 NP 加 上 一 个 VP， 可 以 构成 主 谓 结 构 


(如 * 小 王 /咳嗽 >”) ， 但 也 可 以 构成 依 正 结构 ， 如 “程序 /设计 ”,“ 程 
序 ” 是 NP， 不 作 主 语 而 作 定 语 ,“ 设 计 ” 是 VP， 不 作 谓 语 而 作 中 心 语 。 
类 似 的 例子 还 有 “语言 /学 习 ”、“ 政 治 /工作 ”、“ 物 理 /考试 "等 ， 词 组 类 型 
都 是 NP + VP， 可 是 ， 不 形成 主 谓 结构 ， 而 形成 偏 正 结构 。 在 这 种 情 
况 下 ， 如 采 只 用 词组 类 型 这 样 的 单 标记 NP + VP 就 不 能 区 别 这 种 结构 
在 句法 功能 上 的 歧义 ， 而 必须 采用 多 标记 来 撒 述 ， 既 使 用 词组 类 型 标 
记 ， 又 使 用 句法 功能 标记 。 在 汉语 描述 中 ， 有 必要 把 词组 类 型 与 词类 
DNF, 我们 采用 符号 k 表 示 词 组 类 型 ， 仍 然 用 cat 表 示 词 类 。 


采用 多 标记 ， 对 于 形成 主 请 结构 的 NP + VP， 可 描述 为 


dle = NP ek. = VP 

“taro. = N T <€eat> = V 

<st> =. SUB] <st > = PRED 
式 中 ，k 表 示 词 组 类 型 标记 ，NP 和 VP 都 是 k 这 个 标记 的 值 ，cat 表 示 词 
类 标记 ，N 和 V 都 是 cat 这 个 标记 的 值 ; sf 表示 句法 功能 标记 (syntactic 
function) ，SUBJ 和 PRED 是 sf 这 个 标记 的 值 ，SUBJ 表 示 主 语 ，PRED 
表示 谓语 。 这 里 的 NP 和 VP 都 是 由 一 个 单词 组 成 的 :NP 由 一 个 单词 N 
组 成 ，VP 由 一 个 单词 V 组 成 。 事 实 上 ， 它 们 都 具有 扩展 的 可 能 性 。 在 
下 面 的 叙述 中 ， 为 了 便于 讨论 ， 突 出 结构 中 的 重点 部 分 ， 我 们 一 般 不 
扩展 NP 和 VP， 它 们 扩展 之 后 产生 的 种 种 更 加 复杂 的 问题 ， 不 属于 这 
里 讨论 的 范围 。 


对 于 形成 偏 正 结构 的 NP + VP， 可 描述 为 


clo == INP eke = VP 

creak = N +| <cat> = V 

<sf> = MODF <sf> = HEAD 
式 中 ，MODF 表 示 定 语 ，HEAD 表 示 中 心 语 ， 它 们 是 sf 这 个 标记 的 值 。 

对 于 这 两 种 词组 类 型 相同 而 句法 功能 不 同 的 结构 ， 如 果 只 用 单 标 

WNP + VP 来 描述 ， 显 然 就 不 能 反映 它们 在 句法 功能 方面 的 差异 ， 必 
须 同 时 采用 词组 类 型 标记 和 句法 功能 标记 结合 而 成 的 多 标记 ， 才 能 准 
确 地 描述 它们 。 


汉语 中 一 个 VP 加 上 一 个 NP， 可 以 形成 述 宾 结 构 (如 “学 习 / 英 
iB") ， 但 也 可 以 形成 偏 正 结构 ， 如 “出 租 / 汽 车 ”中 ,“ 出 租 ” 是 VP， 不 
作 述 语 而 作 定语 ,，“ 汽 车 ”是 NP， 不 作 “ 出 租 ” 的 宾语 而 作 被 “出 租 ”修饰 
的 中 心 语 。 类 似 的 例子 还 有 “研究 /方法 ”、“ 学 习 / 制 度 *”、“ 开 放 / 政 
全 ”等 ， 词 组 类 型 都 是 VP + NP， 可 是 ， 不 形成 述 宾 结构 ， 而 形成 偏 正 
结构 。 在 这 种 情况 下 ， 如 果 采 用 单 标记 VP + NPR, Mare Ay 
法 功能 歧义 ， 而 必须 采用 多 标记 来 描述 ， 既 使 用 词组 类 型 标记 ， 又 使 
用 句法 功能 标记 ， 才 能 把 这 种 歧义 区 别 开 来 。 


对 于 形成 述 宾 结构 的 VP + NP， 可 描述 为 
ak> = YP ak > = INP 
codi xv +| «cat» =N 
<sf> = PRED <sf> = OBJE 


式 中 ，PRED 表 示 述 语 ，OBJE 表 示 宾 语 ， 它 们 都 是 句法 功能 标记 sf 的 
值 。 


对 于 形成 偏 正 结构 的 VP + NP, TUR 


Ske a VP <k> = NP 

<at> = V +| «cat» =N 

<sf> = MODF <sf> = HEAD 
式 中 ，MODF 表 示 定 语 ，HEAD 表 示 中 心 语 ， 它 们 是 句法 功能 标记 sf 的 
值 。 


对 于 这 两 种 词组 类 型 相同 而 句法 功能 不 同 的 结构 ， 如 有 果 只 用 单 标 
记 VP + NP 来 描述 ， 显 然 也 是 不 充分 的 ， 必 须 采 用 多 标记 来 描述 。 


2. 汉语 句子 中 词组 类 型 (或 词类 ) 和 句法 功能 都 相同 的 成 分 ， 它 
们 与 句 中 其 他 成 分 的 语义 天 系 还 可 能 不 同 ， 人 句法 功能 和 语义 关系 之 间 
也 不 是 简单 地 一 一 对 应 的 。 


同样 是 由 NP 和 VP 组 成 的 主 谓 结构 ， 其 中 作 主 语 的 NP 的 语义 可 以 
是 施 事 者 (如 “小 王 / 工 作 ” 中 的 “小 王 ”) ， 也 可 以 是 受 事 者 (如 “火车 
票 / 买 了 ”中 的 “火车 票 ?) ， 还 可 以 是 工具 (如 “左手 / 拿 级 ， 右 手 / 拿 
笔 ” 中 的 “左手 "和 “右手 ”) 。 因 此 ， 在 汉语 句子 的 自动 处 理 中 ， 仅 仅 知 
道 了 句子 的 组 成 成 分 的 词组 类 型 标记 和 句法 功能 标记 还 不 够 ， 为 了 区 
分 歧义 ， 还 再 加 上 语义 关系 特征 来 标记 ， 这 样 ， 标 记 就 更 为 复杂 了 。 


对 于 NP 的 语义 关系 为 施 事 者 、 人 句法 功能 为 主语 的 NP + VP, "If 


((<k> = NP zk> = VP 
0 BIN gea = Yy 
eur» = SUBJ li «sr = PRED 
«sem » = AGENT 


其 中 ，sem 表 示 语 义 关 系 标 记 (semantic relation) ，AGENT 表 示 施 事 
者 ， 它 是 语义 关系 标记 sem 的 值 。 


对 于 NP 的 语义 关系 为 受 事 者 、 人 句法 功能 为 主语 的 NP+ VP， 可 描 


为 
He = NP | We = VP | 
«cat» =N <cat> = V 


+ 
[| <> = SUBJ | [en = re | 
<sem > = PATIENT 


其 中 ，PATIENT 表 示 受 事 者 ， 它 是 语义 关系 标记 sem 的 值 。 


= 


对 于 NP 的 语义 关系 为 工具 、 句 法 功能 为 主语 的 NP + VP, npud 
为 


flo. | di i 


«gaps = IN <at> oy 
[eo = SUBJ NES = Pen 
<sem> = INST 
其 中 ，INST 表 示 工 具 ， 它 也 是 语义 关系 标记 sem 的 值 。 


同样 是 由 VP 和 NP 组 成 的 述 宾 结 构 ， 其 中 ， 作 宾语 的 NP 的 语义 天 
系 更 是 复杂 多 样 。 在 英语 中 ， 作 宾语 的 NP 一 般 表示 述 语 VP 的 受 事 


者 ， 但 在 汉语 中 ， 作 宾语 的 NP 在 语义 关系 上 可 以 是 述 语 VP 的 受 事 
者 、 范 围 、 晶 的、 结果、 工具 、...... 等 等 。 


例如 ， 动 词 “ 考 ”后 面 加 上 不 同 的 NP 作 宾 语 ， 这 些 宾语 NP 与 述 
语 “ 考 ”的 语义 关系 极 为 复杂 。 在 “ 考 / 和 学生” 中， 宾语“ 学生” 是 ne 
事 者 ;在 “ 考 / 数 学 "中 ， 宾 语 “ 数 学 是“ 考 ” 的 范围 ;在 “ 考 /北大 ”中 ，， 
语 “ 北 大 ”是 “ 考 ” 的 日 的 ;， 在“ 考 /研究 生 * 中 ， 宾 语 “ 人 研究 生 *” 是 考 * 的 结 
果 (“ 考 /研究 生 * 在 语义 上 是 有 歧义 的 ， 在 一 定 的 环境 下 ,， “研究 生 ” 可 
以 是 “ 考 ” 的 受 事 ， 是 被 考 的 人 ) ; 在 “ 考 /一 百 分 ” 中 ， 宾 语 “ 一 百 分 ” 也 
征 “ 考 ”的 结 采 。 因 此 ， 在 中 文句 子 的 目 动 处 理 中 ， 仅 仅 有 了 词组 类 型 
标记 和 句法 功能 标记 还 是 不 够 的 ， 还 必须 在 加 上 语义 关系 标记 。 


对 于 NP 的 语义 天 系 为 受 事 者 、 句 法 功能 为 宾语 的 VP + NP, nji 
ako = WP <k> = NP 
<cat> = V «eat» = N 
<sf> = PRED <sf> = OBJE 
<sem> = PATIENT 
其 中 ，PATIENT 表 示 受 事 者 ， 它 是 语义 关系 标记 sem 的 值 。 


对 于 NP 的 语义 关系 为 范围 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 
为 
<k> = NP 
f «k» = VP | 


<cat> = N 
<cat> = V + | 


| «sf» - OBJE 
«sf» = PRED 
<sem> = SCALE 


其 中 ，SCALE 表 示范 围 ， 它 是 语义 关系 标记 sem 的 值 。 


对 于 NP 的 语义 天 系 为 目的 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 
为 
tks = VP Ck = INP 
<cat> = V «cat» = N 
<sf> = PRED i <sf> = OBJE 
| | <sem> = Del 
其 中 ，GAOL 表 示 目 的 ， 它 是 语义 关系 标记 sem 的 值 。 


对 于 NP 的 语义 天 系 为 结果 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 
为 
o = VP 3 iu =. NP 
<cat> = V «eat» =N 
|en = PRED (so = OBJE 
«sem» = RESULT 
其 中 ，RESULT 表 示 结 果 ， 它 是 语义 关系 标记 sem 的 值 。 


第 三 、 汉 语 中 单词 所 固有 的 语法 标记 和 语义 标记 ， 对 于 判别 词组 
结构 的 性 质 ， 往 往 有 很 大 的 参考 价值 ， 除 了 词组 类 型 这 样 的 单 标记 之 
外 ， 再 加 上 单词 固有 的 语法 标记 和 语义 标记 ， 采 用 多 标记 来 描述 ， 就 
可 以 判断 词组 结构 的 性 质 。 


在 VP + NP 这 样 的 词组 类 型 结构 中 ， 如 果 VP 的 语法 标记 是 不 及 物 
动词 ,那么 ，VP 的 句法 功能 必定 为 定语 ，NP 的 句法 功能 必定 为 中 心 
语 。 例 如 ,“ 示 踩 程 序 " 中 ,“ 示 踩 ? 为 YP， 和 是 一 个 不 及 物 动 词 , “ 程 


序 " 为 NP， 因 为 不 及 物 动 词 不 能 市 宾语 ， 因 此 , “程序 ?不 能 为 “ 示 踩 ”的 
宾语 ， 这 时 *“ 示 踩 " 是 定语 , “程序 "是 中 心 语 。 这 种 情况 ， 可 以 表示 为 


k> = ££ VPs <ks = NP 
«cat» = V +| «cat» = NI 
«trans» - IV 


| ek = VP | &kc = NP ) 
<cat> zy «cat» = N 


+ 
[| mes = i LU = EI 
«sf» - MODF 


式 中 ，trans 表 示 动 词 的 及 物性 ，IV 表 示 该 动词 的 及 物性 为 不 及 物 ， 它 
是 标记 trans 的 一 个 值 。 


这 个 式 子 说 明 ， 在 VP + NP 中 ， 当 VP 的 及 物性 为 不 及 物 时 ，VP 的 
句法 功能 为 定语 ，NP 的 句法 功能 为 中 心 语 。 


由 此 可 以 看 出 单词 国有 的 语法 标记 对 判断 词组 的 句法 功能 的 作 
用 。 


此 外 ， 单 词 固 有 的 语义 标记 ， 对 于 判断 词组 的 句法 功能 也 有 很 大 
的 作用 。 


在 词组 类 型 结构 VP + NP 中 ， 当 VP 为 及 物 动词 ， 即 它 的 及 物性 为 
及 物 时 ， 词 组 的 句法 功能 标记 ， 就 可 以 根据 NP 的 语法 标记 来 判别 。 一 
般 地 说 ， 当 VP 为 及 物 动词 ，NP 为 抽象 名 词 ， 即 NP 的 固有 语义 标记 
为 “抽象 物 ”" 时 ， 或 者 当 NP 为 类 别名 词 ， 即 NP 的 固有 语义 标记 为 "类别 


名 称 ? 时 ，VP 的 句法 功能 为 定语 ，NP 的 句法 功能 为 中 心 语 。 例 如 ,“ 训 
练 /目的 ”这 个 词组 中 , “训练” 为 及 物 动词 ,“ 目 的 ”为 抽象 名 词 ， 即 “ 目 
的 ”的 固有 语义 为 “抽象 物 ”， 因 此 ， 可 判断 “训练 ”的 句法 功能 为 定 
W., “目的 ”的 句法 功能 为 中 心 语 。 类 似 的 例子 还 有 : “EFR ` H 
其 /目标 、 发 展 /方向 、 管 理 /体制 、 进 攻 / 计 划 ” 等 。 叉 如 , “管理 /人 
员 ” 这 个 词组 中 , “管理 ?为 及 物 动词 , “人员” 为 类 别名 词 ， 即 “人 员 ” 的 
固有 语义 为 “类别 名称 ”， 因 此 ， 可 判断 “管理 ”为 修饰 语 , “人 员 ” 为 中 
心 语 。 类 似 的 例子 还 有 : “采购 /人 员 、 进 修 /教师 、 领 导 / 干 部 、 评 论 / 
专家 、 旦 新/ 能手、 主治 /医生 ”等 。 


前 一 种 情况 可 以 表示 为 
EEF = VP \ ( «k» = NP \ 


本 = y [que = N ln 
«trans» = TV «sem» = ABS 


ks = VP eks = NP 
<cat> = V «cat» = N 

+ 
«trans» = TV <sem> = ABS 


<sf> = MODF <sf> = HEAD 
后 一 种 情况 可 表示 为 


<k> = VP dks = NP 


«pat?» = V +| «cat» = N — 
«trans» =TV «sem» - SORT 
eks = VP <k> = NP 
<cat> = V <¢at> =N 

+ 


<trans> = TV <sem> = SORT 

<sf> = MODF <sf> = HEAD 
式 中 ，TV 表 示 “ 及 物 ”， 它 是 标记 trans 的 一 个 值 ，ABS 表 示 “ 抽 象 物 ”， 
它 是 标记 sem 的 一 个 值 ，SORT 表 示 “ 类 别名 称 *?»， 它 是 标记 sem 的 男 一 
个 值 。 它 们 是 单词 固有 的 语义 标记 ， 并 不 表示 单词 与 单词 之 间或 者 词 
组 与 词组 之 间 的 语义 天 系 ， 只 是 表示 单词 本 身 的 语义 特征 ， 这 显然 是 
男 一 种 类 型 的 语义 标记 。 


由 此 可 见 ， 在 汉语 句子 的 描述 中 ， 仅 仅 采 用 词类 或 词组 类 型 这 样 
的 单 标记 是 远 远 不 够 的 ， 必 须 在 加 上 句法 功能 标记 和 语义 关系 标记 ， 
甚至 还 要 加 上 单词 固有 的 语法 和 语义 标记 ， 才 有 可 能 比较 全 面 地 表达 
句子 中 包含 的 语言 信息 ， 从 而 也 才 有 可 能 成 功 地 进行 中 文 信息 处 理 。 
这 束 是 为 什么 我 们 要 在 汉语 句子 的 目 动 处理 中 ， 采 用 “多 标记 ?来 表达 
语言 信息 在 语言 学 上 的 根据 。 


以 上 我 们 只 是 对 这 个 问题 作 了 初步 的 论述 ， 而 语言 现象 往往 比 我 
们 想象 的 还 要 复杂 得 多 。 汉 语 中 施 事 者 和 受 事 者 有 时 很 难 分 辨 ， 篆 第 
需要 语 境 方面 的 背景 知识 才能 判别 。 例 如 ， 在 “小 王 / 理 发 ”这 个 NP + 
VP 中 ， 如 有 果 “ 小 王 ” 十 理发 师 ， 那 么 ,“ 小 王 ” 一 般 应 该 是 施 事 者 ， 他 给 
别人 理发 ， 如果 “小 王 ? 不 是 理发 师 ， 而 征 被 理发 的 人 ， 那 么 , “小 
王 ? 驶 是 受 事 者 。“ 小 王 ? 冤 竞 是 施 事 痢 还 是 受 事 者 ， 是 由 “小 王 ” 的 身份 


这 种 背景 知识 来 判别 的 ， 单 赁 语言 本 吴 是 难以 分 辨 的 。 这 是 ， 描 述 汉 
语句 子 的 多 标记 ， 势 必 就 要 扩大 到 语 境 标记 的 范围 了 。 这 类 例子 并 不 
人 少见。 在 “小 王 / 修 车 *、“ 小 王 / 拔 牙 ”、“ 小 王 / 看 病 * 等 NP + VP 中 ,“ 小 
王 ” 究 况 是 施 事 者 还 是 受 事 者 ， 都 要 通过 语 境 标记 的 分 析 ， 才 能 作出 正 
确 的 判别 。 在 这 些 情况 下 ， 束 需要 用 更 加 复杂 的 多 标记 来 摘 述 了 。 


我 们 在 上 面 描 述 汉语 句子 时 ， 是 采用 若干 个 标记 和 它们 的 值 来 进 
行 描述 的 。 汉 语 的 多 标记 包含 若干 个 标记 ， 而 每 一 个 标记 又 包含 若干 
个 值 ， 这 种 由 标记 和 它们 的 值 构成 的 描述 系统 ， 叫 做 “标记 / 值 系 统 。 
每 种 语言 都 有 自己 的 “标记 / 值 " 系 统 。 语 言 不 同 ， 它 们 的 “标记 / 值 " 系 统 
也 不 同 。 


根据 我 们 设计 FAJRA、GCAT 和 FCAT 等 机 器 翻译 系统 的 经 验 ， 我 
们 认为 ， 对 于 汉语 的 自动 分 析 和 自动 生成 来 说 ， 可 采用 如 下 的 “标记 / 
值 ”系统 。 


1. 词类 标记 和 它 的 值 : 


词类 是 描述 汉语 句子 的 多 标记 之 一 ， 记 为 cat 。 


cat 的 可 取 如 下 的 值 ， 名 词 、 处 所 词 、 方 位 词 、 时 间 词 、 区 别 词 、 
数 词 、 量 词 、 体 词性 代词 、 谓 词性 代词 、 动 词 、 形 容 词 、 副 词 、 介 
词 、 连 词 、 助 词 、 语 气 词 、 拟 声 词 、 感 叹 词 。 


为 便于 计算 机 处 理 ， 我 们 把 标点 符号 与 公式 也 各 算 为 一 个 词类 ， 
这 样 一 来 : 汉语 共有 20 个 词类 ， 即 标记 cat 可 取 20 个 值 。 


每 个 标记 值 还 可 以 再 取 子 值 ， 即 进行 进一步 的 分 类 。 例 如 ， 汉 语 
的 形容 词 可 以 再 分 为 状态 形容 词 和 性 质 形 容 词 两 个 次 类 ， 也 束 是 说 ， 
形容 词 这 个 标记 值 还 可 以 再 取 状 态 形 容 词 和 性 质 形容 词 两 个 子 值 。 标 
记 的 值 及 其 子 值 ， 可 以 看 成 是 次 一 级 的 “标记 / 值 ” 偶 对 ， 也 就 是 可 以 把 
值 看 成 次 一 级 “标记 / 值 ” 偶 对 中 的 标记 ， 把 该 值 的 子 值 看 成 次 一 级 “ 标 
记 / 值 ”* 贫 对 中 的 值 。 这 意味 着 当 存 在 子 值 时 ， 在 “标记 / 值 ” 偶 对 中 
的 “ 值 ? 本 身 ， 也 可 以 是 一 个 次 一 级 的 “标记 / 值 ? 偶 对 。 


2. 词组 类 型 标记 和 它 的 值 : 


词组 类 型 是 描述 汉语 的 另 一 个 标记 ， 记 为 k 。 


k 的 值 可 取 : 动词 词组 、 名 词 词组 、 形 容 词 词组 、 数 量词 组 ， 共 4 


A 


我 们 把 传统 语法 中 的 介词 词组 并 入 名 词 词组 ， 因 为 从 信息 处 理 的 
角度 看 来 ， 介 词 词组 中 的 介词 ， 实际 上 只 是 它 后 面 的 名 词 词组 功能 的 
一 种 标志 ， 并 入 名 词 词组 处 理 更 为 方便 。 


3. 单词 的 固有 语义 标记 和 它 的 值 : 


单词 的 固有 语义 标记 ， 就 是 单词 的 语义 类 别 ， 它 表示 的 是 孤立 的 
单词 的 语义 ， 而 不 是 单词 与 单词 之 间 的 语义 关系 。 单 词 的 固有 语义 标 
记 记 为 sem。 


sem 可 取 如 下 的 值 和 子 值 : 
物象 ， 其 子 值 为 生物 、 无 生物 、 机 关 组 织 、 类 别名 称 。 


物资 : 其 子 值 为 设备 、 产 品 、 原 材料 。 

现象 ， 其 子 值 为 自然 现象 、 人 工 现 象 、 社 会 现象 、 力 能 现象 。 
时 空 ， 其 子 值 为 时 间 、 空 间 。 

测度 ， 其 子 值 为 数量 、 单 位 、 标 准 。 

抽象 ， 其 子 值 为 学 问 、 概 念 、 和 从 号 。 


— 
di 


属性 : 其 子 值 为 性 质 、 形 状 、 关 系 、 结 构 。 
行动 : 其 子 值 为 行为 、 动 作 、 操 作 。 


这 些 固有 语义 标记 都 记录 在 词典 中 孤立 的 单词 上 面 ， 成 为 单词 本 
身 固有 的 语义 属性 。 


4. 单词 的 固有 语法 标记 和 它 的 值 : 


孤立 的 单词 也 具有 语法 标记 。 例 如 ， 不 同 的 名 词 要 求 不 同 的 量 
词 ， 因 此 ， 刺 量词 标记 束 是 名 词 的 固有 语法 标记 ; 不 同 的 动词 及 物性 
不 同 ， 因 此 ， 及 物性 就 古 动 词 的 固有 语法 标记 ; 不 同 的 动词 
的 “ 价 ” (valence) 也 不 尽 相 同 ， 因 此 ,“ 价 ”就 是 动词 的 男 一 个 固有 语 


法 标记 ,“ 价 ?反映 了 动词 对 其 前 后 词语 的 要 求 ， 但 它 征 动词 本 身 的 属 
性 ， 因 此 ， 我 们 把 它 看 成 是 动词 的 固有 语法 标记 。 


单词 的 固有 语法 特 标记 为 grm。 


语法 标记 的 值 也 可 以 具有 子 值 ， 这 时 ， 我 们 可 以 把 值 和 它 的 子 值 
作为 “标记 / 值 ” 侦 对 来 处 理 。 例 如 ， 动 词 的 固有 语法 标记 的 及 物性 这 个 
值 具有 两 个 子 值 : “及 物 ” 和 “不 及 物 ”， 我 们 可 把 及 物性 看 成 一 标记 ， 
把 及 物 和 不 及 物 这 两 个 子 值 看 成 这 个 标记 的 值 。 前 面 我 们 用 过 的 
trans=TV 和 trans=IV 等 表示 法 ， 正 是 这 样 来 处 理 的 。 


“pr th ARS: —ft- t+ =the than Rae TE 
语 ， 如 “咳嗽 >; 二 价 动词 可 有 一 个 主语 和 一 个 宾语 ， 如 * 写 ” 三 价 动 
词 可 有 一 个 主语 、 一 个 直接 宾语 、 一 个 间接 宾语 ， 如 “给 ”。 


5. 句法 功能 标记 : 


由 于 现代 汉语 中 的 词组 类 型 和 句法 功能 之 间 没 有 明确 的 一 一 对 应 
关系， 它们 之 间 的 关系 极为 错综复杂 ， 在 汉语 句子 的 目 动 分 析 中 ， 必 
须 注 意 句 法 功能 标记 ， 这 些 标记 都 是 在 句子 的 目 动 分 析 中 产生 的 ， 而 
不 是 单词 或 词组 本 号 固有 的 。 汉 语 中 句子 组 成 成 分 的 句法 功能 标记 记 
为 sf ° 


sf 可 取 如 下 的 值 ， 主 语 、 谓 语 、 宾 语 、 定 语 、 状 语 、 补 语 、 述 
语 、 中 心 语 。 


注意 :“ 中 心 语 ?这 个 值 是 非常 重要 的 ， 因 为 在 语言 的 结构 中 ， 除 
了 并 列 结构 之 外 ， 组 成 结构 的 成 分 总 是 有 主 次 之 分 ， 我 们 使 用 “中 心 
语 ” 这 个 值 ， 强 调 结构 中 的 “核心 ”与 “ 非 核心 ”的 区 别 ， 弥 促 了 直接 成 分 
分 析 法 的 不 足 。 


sf 的 值 可 以 有 子 值 。 例 如 ， 宾 语 这 个 值 可 有 直接 宾语 和 间接 宾语 
两 个 子 值 。 


语义 关系 标记 也 不 是 单词 本 号 固有 的 ， 而 是 在 计算 机 目 动 进行 句 
法 语义 分 析 的 过 程 中 通过 运算 得 出 的 。 孤 立 的 单词 谈 不 上 语义 关系 ， 
只 有 两 个 或 两 个 以 上 的 单词 或 词组 才 会 产生 语义 关系 。 为 了 简单 起 
见 ， 我 们 把 语义 关系 标记 也 记 为 sm。 


sem 可 取 以 下 的 值 : 施 事 、 受 事 、 与 事 、 关 涉 、 时 刻 、 时 段 、 时 
间 起 点 、 时 间 终 点 、 空 间 点 、 衬 间 段 、 空 间 起 点 、 空 间 终点 、 初 仿 、 
AR AS > JRA SUR ILRCÓZX HB) > 条件、 作用 、 内 容 、 范 围 、 
论题 、 修 所 、 比 较 、 伴 随 、 判 断 、 陈 述 、 附 加 等 。 


sem 的 各 个 值 还 可 以 分 得 更 细 ， 这 样 每 个 值 就 还 可 以 再 取 子 值 。 


如 条 把 汉语 的 句子 看 成 一 个 逻辑 命题 ， 那 么 ， 在 逻辑 命题 的 谓词 
与 它 的 各 个 论 元 (argument) 之 间 还 存在 着 逻辑 关系 。 由 于 逻辑 命题 
的 各 个 论 元 在 句子 中 是 由 单词 或 词组 来 充当 的 ， 因 而 在 句子 中 ， 单 词 
与 单词 或 者 词组 与 词组 之 间 还 存在 着 逻 辑 关 系 。 这 种 关系 束 是 乔 姆 斯 
基 所 说 的 “ 题 元 关系 ”(0 relation) ° ZERRAK ° 


Ir RA P: 


论 元 0 (arg0) : 它 是 句子 的 深层 主语 


论 元 1 (arg1) : 它 是 句子 的 深层 直接 宾语 


论 元 2 (arg2) : 它 是 句子 的 深层 间接 宾语 


逻辑 关系 标记 的 值 一 般 没 有 子 值 。 


每 一 个 论 元 均 起 一 个 题 元 作用 ， 而 且 只 能 起 一 个 题 元 作用 ;， 每 个 
题 元 作用 均 由 一 个 论 元 来 充当 ， 而 且 只 能 由 一 个 论 元 来 充当 。 因 此 ， 
可 以 根据 论 元 的 情况 来 检验 所 处 理 的 句子 在 逻辑 关系 的 分 析 上 有 是 否 正 
确 ， 并 且 揭 示 出 整个 句子 的 逻辑 结构 。 


我 们 这 里 列 出 的 汉语 的 “标记 / 值 ? 系 统 ， 还 不 十 分 完善 ， 有 行 在 实 
B rP XE 7 IPIE ° 


在 上 面 所 列举 的 各 类 标记 中 ， 词 类 特征 、 单 词 的 固有 语义 标记 、 
单词 的 固有 语法 标记 都 是 可 以 在 词典 中 独立 地 给 出 来 的 ， 它 们 是 单词 
本 身 所 固有 的 标记 ， 我 们 把 它们 叫做 静态 标记 (static labels) ° 而 词 
组 类 型 标记 、 句 法 功能 标记 、 语 义 关系 标记 、 人 逻辑 关系 标记 并 不 能 
示 单 词 本 身 的 固有 特性 ， 它 们 是 单词 与 单词 之 间 发 生 联 系 时 才 产 生出 
来 并 同时 被 记录 在 树 形 图 结 点 上 的 标记 ， 我 们 把 它们 叫做 动态 标记 


(dynamic labels) 。 这 就 是 MMT 模 型 中 的 “ 双 态 理论 ” ( bi-states 
theory) 。 


在 目 动 句 法 语义 分 析 中 ， 静 态 标记 是 计算 机 进行 运算 的 基础 ， 计 
算 机 依赖 于 这 些 预 先 在 词典 中 给 出 的 静态 标记 ， 通 过 有 穷 步 运算 ， 逐 
渐 算 出 各 种 动态 标记 ， 从 而 逐步 弄 清楚 汉语 句子 中 各 个 语言 成 分 之 间 
的 关系 ， 达 到 目 动 句法 语义 分 析 的 目的 。 


在 各 种 动态 标记 中 ， 词 组 类 型 标记 是 最 容易 运算 求 出 的 。 一 般 根 
据 树 形 图 中 某 个 结 点 的 直接 后 裔 的 词类 标记 、 单词 的 固有 语法 标记 及 
单词 的 固有 语义 标记 等 静态 标记 ， 束 不 难 推算 出 该 结 点 的 词组 类 型 标 
记 。 句 法 功能 标记 则 要 通过 更 广泛 的 上 下 文 信息 才能 推算 求 出 ， 而 语 
义 天 系 标记 及 逻辑 关系 标记 则 是 最 难 求 出 的 ， 往 往 不 是 一 步 求 出 ， 而 
征 要 通过 许多 步 的 演绎 和 推理 ， 才 有 可 能 推算 出 来 。 一 个 汉语 目 动 分 
析 和 语义 分 析 系 统 的 质量 的 高 低 ， 在 很 大 的 程度 上 取决 于 它 所 推算 出 
的 句法 功能 标记 、 语 义 关 系 标记 和 逻辑 关系 标记 的 多 宥 和 正确 与 否 。 
因此 ， 如 何 根 据 各 种 静态 标记 推算 出 动态 标记 ， 便 是 双 态 理论 重 中 之 
重 的 问题 ， 也 十 汉语 目 动 处 理 的 关键 所 在 。 汉 语 语法 和 语义 的 研究 应 
该 为 这 方面 的 工作 提供 出 有 效 的 规则 ， 在 这 个 领域 中 ， 非 党 需要 语言 
学 家 和 计算 机 专家 的 通力 协作 。 


一 般 地 说 ， 汉 语句 子 的 目 动 分 机 ， 应 该 包括 如 下 步骤: 
1. 对 输入 的 汉语 句子 进行 切 分 ， 确 定单 词 与 单词 之 间 的 界线 。 
2. 在 词典 中 查 出 句子 中 各 个 单词 的 静态 标记 。 


3. 根据 语法 规则 和 语义 规则 ， 检 查 这 些 静 态 标 记 的 相 容 性 ， 把 静 
态 标 记 相 容 的 单词 结合 成 词组 ， 并 求 出 词组 类 型 标记 。 


4. 根据 语法 规则 和 语义 规则 ， 由 静态 标记 和 词组 类 型 标记 出 发 ， 
计算 出 句法 功能 标记 ， 并 进一步 计算 出 语义 关系 标记 和 逻辑 关系 标 
ib 


在 检查 静态 标记 的 相 容 性 以 及 由 静态 标记 计算 动态 标记 时 ， 如 采 
两 个 标记 不 相 容 ， 则 不 能 进行 运算 ， 运 算 失 败 ， 如 有 果 两 个 标记 相 容 ， 
则 根据 有 关 的 语法 和 语义 规则 进行 运算 。 由 于 在 标记 不 相 冲 突 时 就 可 
以 对 标记 进行 运算 ， 运 算 所 得 出 的 标记 信息 必然 不 断 增多 ， 人 句子 各 个 
组 成 成 分 所 包含 的 标记 越 来 越 丰 富 ， 最 后 求 出 的 各 种 标记 束 能 比较 全 
面 地 反映 汉语 句子 的 性 质 。 


汉语 的 目 动 生成 过 程 与 此 相反 。 在 从 外 语 到 汉语 的 机 右 翻 译 中 ， 
一 般 是 根据 外 语 分 析 得 到 的 有 关 人 句法 功能 、 语 义 关系 、 人 逻辑 天 系 的 标 
记 ， 并 根据 外 汉 双 语言 机 器 词典 中 提供 的 有 关 汉 语 单词 的 静态 标记 ， 
进行 汉语 词 序 的 调整 及 必要 的 词性 变化 (如 动词 和 形容 词 的 重 佬 式 变 
化 ) ， 最 后 产生 出 合格 的 汉语 句子 。 


我 们 在 机 器 翻译 试验 中 使 用 了 这 样 的 方法 ， 得 到 了 较 好 的 结果 . 
中 文 信息 MMT 模 型 的 要 点 可 以 总 结 如 下 ， 


1. 一 个 多 叉 多 标记 树 形 图 具有 而 且 仅 仅 具有 一 个 根 结 点 : 


2. 如 果 根 结 点 具有 子 结 点 ， 则 每 一 个 子 结 点 都 是 一 个 多 又 多 标记 
树 形 图 ; 


3. 多 又 多 标记 树 形 图 的 任意 一 个 结 点 都 有 0 个 至 n 个 子 结 点 ， 如 有 宁 
一 个 结 点 的 子 结 点 数 为 0， 则 该 结 点 为 终极 结 点 〈 即 时 子 ) ， 如 果 一 个 


结 点 的 子 结 点 数 不 为 0， 则 该 结 点 为 非 终极 绪 点 ， 二 又 树 只 是 多 叉 树 当 
n=2 时 的 一 种 特殊 情况 。 


4. 多 又 多 标记 树 形 图 的 每 一 个 结 点 上 的 标记 都 是 多 个 标记 的 集 
Jax 


根据 MMT 模 型 ， 本 书 作 者 有 效 地 建立 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 
机 器 翻译 系统 FAJRA、 德 汉 机 器 翻译 系统 GCAT 和 法 汉 机 器 翻译 系统 
FCAT。 哈 尔 滨 工业 大 学 计算 机 系 采用 MMT 模 型 ， 人 研制 了 CEMT-II 汉 
英 机 器 翻译 系统 ， 该 系统 词典 容量 4 万 条 ， 各 类 规则 3 600 条 ， 对 于 封 
闭 语 料 ， 译 文 准确 率 为 78%， 对 于 开放 语 料 ， 译 文 准确 率 为 67%， 翻 
译 速 度 为 每 小 时 3500 汉 字 (在 IBM386/33 上 运行 ) ， 该 系统 于 1993 年 5 
月 通过 了 技术 鉴定 。 实 践 证 明 ，MMT 模 型 是 一 个 行 之 有 效 的 自然 语言 
处 理 模 型 。 


PLU ”多 标记 集合 与 合 一 运算 


在 20 世 纪 80 年 代 初 期 ， 我 们 对 于 多 标记 集合 是 采用 集合 论 中 
的 “并 、 补 、 区 ?等 的 运算 方法 ， 这 种 方法 是 比较 传统 的 经 典 的 运算 方 
法 。 近 年 来 ， 国 外 自然 语言 处 理 的 研究 有 了 长 足 的 进展 ， 出 现 了 各 种 
基于 “ 合 一 ”的 运算 方法 ， 根 据 上 自然 语言 处 理 的 特点 ， 对 传统 的 经 典 的 
集合 运算 方法 作 了 改进 ， 在 这 种 情况 下 ， 我 们 也 有 必要 对 于 MMT 模 型 
的 运算 方法 加 以 改进 ， 以 适应 当前 目 然 语言 处 理发 展 的 要 求 。 


正如 我 们 在 20 世 纪 80 年 代 初 期 所 说 的 那样 ， 当 时 我 们 提出 MMT 模 
型 ， 是 为 了 克服 短语 结构 语法 的 缺陷 ， 使 之 适合 于 自然 语言 计算 机 处 
理 的 要 求 。 


距 在 我 们 提出 中 文 信息 MMT 模 型 的 同时 ， 国 外 一 些 计 算 语言 学 家 
也 看 到 了 短语 结构 语法 的 局 限 性 ， 纷 纷 提出 各 种 手段 来 提高 短语 结构 
语法 有 限 的 分 析 能 力 ， 限 制 其 过 强 的 生成 能 


20 世 纪 80 年 代 前 后 ， 在 美国 首先 从 伍 效 (W. Woods) 的 扩充 转移 
网 络 开 始 ， 在 布 列 斯 南 关 于 面 问 词汇 的 转换 语言 学 思想 的 激励 之 下 ， 
卡 普兰 和 布 列 斯 南 一 起 ， 于 1983 年 提出 了 词汇 功能 语法 ; ST SUKT 
1983 年 提出 了 * 合 一 语法 >”， 于 1985 年 提出 了 “功能 合 一 语法 >。 他们 都 
认为 ， 目 然 语言 是 一 个 效率 极 高 同时 又 能 够 精确 地 表达 各 种 复杂 意念 
的 信息 系统 ， 仅 只 用 乔 姆 斯 基 的 短语 结构 语法 中 的 单一 的 句法 范畴 不 
可 能 充分 地 描述 自然 语言 的 句子 ， 而 必须 使 用 “复杂 特征 ”来 描述 ， 
而 这 些 语法 都 采用 了 “复杂 特征 结构 ”(complex feature structures) ， 并 
采用 “ 合 一 ” (unification) 来 对 复杂 特征 进行 运算 。 


法 国学 者 科 尔 迈 洛 埃 (A.Colmerauer) 于 1970 年 独立 地 研制 了 Q- 
系统 (Q-system) ， 又 于 1978 年 提出 了 “变形 语法 ”(\Metamorphosis 
Grammar) ， 把 它们 作为 自然 语言 处 理 的 工具 。 在 逻辑 程序 设计 方 
E, MAM (D. Warren) 于 1980 年 提出 了 定子 名 语法， 这 种 语 
法 是 在 科 尔 迈 党 埃 早 期 形式 语法 的 研究 以 及 程序 设计 语言 Prolog 的 工 
作 基 础 上 研制 而 成 的 。 在 独立 的 逻辑 程序 设计 工作 中 ， 这 种 定子 句 语 
法 已 经 成 为 许多 立足 于 “复杂 特征 ”的 “ 合 一 ”运算 的 形式 化 方法 的 基 
础 ， 例 如 ,，“ 移 位 ”(extraposition ) ^ “#8” (slot) 和 “间隔 语 
iE" (Gapping Grammar) 等 等 。 这 些 工 作 也 都 是 离 不 开 * 复 杂 特 征 ” 的 
运算 的 。 


mm 2418 ` WLKA (E. Klein) 和 普 鲁 姆 等 人 于 1978 年 提出 了 “广义 
短语 结构 语法 ”"， 这 种 语法 以 短语 结构 语法 作为 基础 ， 采 用 “特征 / 
值 ?系统 来 描述 句子 ， 在 这 种 “特征 / 值 ? 系 统 中 ， 既 包括 简单 特征 ， 也 


包括 复杂 特征 ， 这 就 在 很 大 程度 上 ， 增 强 了 短语 结构 语法 对 目 然 语言 
的 解释 力 ， 改 善 了 筷 的 功能 。 在 他 们 最 近 的 研究 工作 中 ， 也 引进 了 “ 合 
一 ”来 进行 复杂 特征 的 运算 。 班 拉 德 于 1984 年 在 他 的 博士 论文 中 ， 提 出 
了 “中 心 词语 法 ”"， 其 理论 基础 之 一 ， 束 是 “广义 短语 结构 语法 ”中 的 “ 特 
征 / 值 ” 系 统 。1985 年 ， 班 拉 德 和 他 的 同事 们 义 提 出 了 “中 心 词 驱 动 的 短 
语 结构 语法 ”， 这 种 语法 是 “广义 短语 结构 语法 ”和 “中 心 词语 法 ”的 进 一 
步 发 展 ， 也 采用 了 “复杂 特征 "和 “ 合 一 ”运算 。 


作者 在 1981 年 提出 的 中 文 信息 MMT 模 型 中 ， 明 确 地 采用 “多 标 
记 ”， 这 种 “多 标记 ”实质 上 就是 “ 复 洒 特征 ”， 与 同一 个 时 期 上 述 欧 美学 
者 提出 的 “ 复 洒 特征 ”名 异 而 实 同 。 作 者 用 “多 标记 ”来 代 蔡 “ 单 标记 ”， 
实质 上 也 就 十 用 “复杂 特征 ”来 代替 “单一 特征 *"， 其 思路 与 本 章 第 一 市 
中 用 复 灯 特征 代 礁 单一 特征 的 思路 是 完全 一 致 的 。 


纵 观 20 世 纪 80 年 代 前 后 目 然 语言 处 理 研 究 的 发 展 历 史 可 以 看 出 ， 
作者 在 1981 年 提出 的 MMT 模 型 ， 是 世界 各 国学 者 对 乔 姆 斯 基 的 短语 结 
构 语法 进行 改进 的 一 个 重要 方面 和 不 可 分 割 的 组 成 部 分 ，MMT 模 型 是 
20 世 纪 80 年 代 较 早 提出 的 一 个 旨 在 改进 短语 结构 语法 的 形式 化 模型 。 
当时 作者 正在 法 国 格 惑 诺 布 尔 大 学 应 用 数学 人 研究 所 目 动 翻译 中 心 师 从 
际 计算 语言 学 委员 会 主席 沃 古 瓦 教授 研制 多 语言 目 动 翻译 系统 
FAJRA， 当 作者 向 沃 古 瓦 教授 指出 了 汉语 分 析 中 的 种 种 困难 而 必须 采 
用 多 标记 来 处 理 时 ， 沃 十 瓦 教授 兴 理 地 移 赏 这 样 的 想法 ， 并 且 杀 目 把 
这 个 模型 定名 为 “中 文 信息 MMT 模 型 ” (Multiple-branched, multiple- 
labelled tree model for Chinese information processing) ， 在 沃 古 瓦 教授 
的 指导 下 ， 作 者 利用 该 大 学 的 ARIANE-78 目 动 翻译 软件 ， 在 计算 机 上 
实现 了 “中 文 信息 MMT 模 型 *， 成 功 地 把 若干 篇 中 文科 技 短 文 分 别 翻译 
成 法 语 、 有 英语、 日 语 、 德 语 、 俄 语 等 五 种 语言 。1982 年 在 布拉格 举行 


的 国际 计算 语言 学 会 议 上 ， 担 任 大 会 主 忆 的 沃 古 瓦 教授 在 发 言 中 ， 特 
别提 到 了 作者 在 格 勒 诡 布 尔 大 学 采用 MMT 模 型 全 制 的 多 语言 目 动 翻译 
系统 ， 给 予 热情 的 赞赏 。MMT 模 型 的 提出 ， 说 明 我 国 目 然 语言 处 理工 
作者 很 早 就 认识 到 了 乔 姆 斯 基 短 语 结构 语法 的 局 限 性 ， 并 且 找 到 了 改 
进 它 的 有 效 方 法 一 一 “多 标记 函数 "。 在 20 世 纪 80 年 代 初 期 ， 我 国学 者 
在 这 方面 的 癸 究 是 处 于 前 沿 地 位 的 。“ 多 标记 ”的 概念 也 就 是 “ 复 洒 特 
征 ” 的 概念 ， 它 是 80 年 代目 然 语言 处 理 的 形式 化 方法 的 一 个 有 力 工具 。 
20 世 纪 80 年 代 以 来 的 自然 语言 处 理 ， 在 关键 性 的 地 方 都 使 用 了 基于 “ 复 
杂 特 征 ” 的 “ 合 一 ”运算 方法 。 可 以 说 , “复杂 特征 ”的 概念 ， 是 当代 目 然 
语言 处 理 人 研究 中 的 一 个 关键 性 概念 ， 它 反映 了 计算 机 时 代 人 们 对 于 语 
言 现 象 认识 的 进一步 深化 。 


参照 天 于 “ 合 一 ”运算 的 理论 和 方法 ， 我 们 非常 有 必要 对 于 MMT 模 
型 进行 进一步 的 改进 ， 特 别 应 该 把 “ 合 一 ”运算 方法 引入 MMT 模 型 。 


BH, 我们 参照 功能 合 一 语法 ， 采 用 功能 描述 (Functional 
Description， 简 称 FD) 来 表示 多 标记 集合 (multiplt-label set) 。 


功能 描述 FD 由 一 组 描述 元 (descriptors) 组 成 ， 而 每 一 个 描述 元 
则 是 一 个 成 分 集 (constituent set) 、 一 个 模式 (pattern) 或 一 个 带 值 的 
属性 (attribute) ， 其 中 最 主要 的 是 “属性 / 值 * 偶 对 。 在 功能 描述 FD 
中 ， 描 述 元 的 值 可 以 是 原子 ， 也 可 以 是 另 一 个 功能 描述 FD. 所 以 ， 功 能 
描述 是 递归 地 定义 的 。 


下 面 给 出 表示 多 标记 集合 的 功能 摘 述 的 疡 格 定义 : 


ca 为 一 个 功能 描述 FD， 当 且 仅 当 x 可 表示 为 


I ey 


Il I1 
其 中 , 下 表示 标记 名 ，vVi 表示 标记 值 ， 而 且 ， 满 足 如 下 两 个 条 件 : 


i. 标记 名 fi 为 原子 ， 标 记 值 vi 或 为 原子 或 为 另 一 个 功能 描述 FD 
il. a<f; >= Vi 


Hes. co m 
EE: Rat, trict, 的 值 等 于 vi . 


采用 这 样 的 功能 摘 述 ， 束 可 以 表示 多 标记 集合 。 


组 成 功能 描述 FD 的 一 组 描述 元 都 写 在 一 个 方 括号 里 ， 书 写 的 顺序 
无 关 紧 要 。 在 一 个 “属性 / 值 ” 偶 对 中 ， 属 性 是 一 个 符号 ， 如 NUMBER 
( 数 ) 、SUBJ (主语 ) 、OBJE (宾语 ) 、MODF (修饰 语 ) ^ HEAD 


(中 心 语 ， 等 ， 它 的 值 或 者 是 一 个 符号 ， 或 者 是 男 一 个 功能 描述 FD. 
属性 和 它 的 值 之 间 用 等 号 来 连接 ， 因 此 ，a = b 表 示 属 性 a 的 值 是 b. 
例如 ， 句 子 “ 我 了 解 她 ”可 以 用 下 面 的 功能 描述 FD (1) 来 表示 : 


FD 1): / «cat» = S | 
| ( <cat > — PRONOUN) 
<num> = SING 


«subj» = 
<per> = 1 
<sem> = AGENT 
«cat» = PRONOUN 
<num> = SING 

<obje> = 

| <per> = | 
<sem> = PATIENT 
| <cat> = 
< pred > 
in | «lex > we] | 


<voice > = ACTIVE 
这 个 功能 描述 表示 : “我 了 解 她 ?是 个 句子 (cat = S) ， 在 这 个 句 
子 中 ， 主 语 “ 我 ”是 代词 ， 单 数 ， 第 一 人 称 ， 宾 语 * 她 ”是 代词 ， 单 数 ， 
第 二 人称， 谓语 “< 了解 * 是 动词 ， 具 体 的 词 形 是 “了 解 *"， 整 个 句子 的 语 
态 是 主动 态 。 这 些 功 能 摘 述 也 就 是 这 个 句子 的 多 标记 集合 


在 一 个 功能 摘 述 FD 中 ， 每 一 个 “属性 / 值 ? 俩 对 都 是 该 FTD 所 搞 述 对 
象 的 一 个 标记 。 如 果 这 个 值 是 一 个 符号 HBA, xU] PEE ET RU 
叫做 功能 描述 FD 的 一 个 基本 标记 。 任 何 功能 撒 述 FD 都 可 以 用 一 个 由 


基本 标记 组 成 的 表 来 表示 。 例 如 ， 上 面 的 功能 描述 FD (1) 也 可 以 用 
下 面 的 表 FD (2) 来 描述 : 


FD (2) : <cat> = S 
<subj cat> = PRONOUN 
<subj num> = SING 
<subj per> = 1 
<subj sem> = AGENT 
<obje cat> = PRONOUN 
<obje num> = SING 
<obje num> = 3 
<obje sem> = PATIENT 
«pred cat» = V 
«pred lex» =” 了解" 


«voice» - ACTIVE 


在 这 个 表 FD (2) 中 ， 尖 括号 <> 里 的 符号 构成 了 一 条 路 径 
(path) ， 功 能 描述 FD 中 的 每 一 个 值 ， 总 可 以 用 一 条 路 径 来 称呼 它 。 
可 以 看 出 ，FD (2) 中 表达 的 标记 与 FD (1) 中 表达 的 标记 是 相同 
的 ， 它 们 是 同一 个 句子 中 的 多 标记 集合 的 不 同 的 表达 方式 。 


不 过 ， 尽 管 FD (1) 和 FD (2) 都 是 同一 个 功能 描述 FD 的 两 种 表 
示 ， 它 们 还 各 有 不 同 : FD (1) 显示 了 功能 描述 的 嵌 套 ， 因 而 强调 了 
功能 描述 的 结构 特性 ，FD (2) 是 一 个 表 ， 因 而 强调 了 功能 描述 内 音 
的 分 量 特性 。 这 两 种 表示 方法 都 有 意 模 类 了 标记 和 结构 之 间 的 通 彰 区 
别 ， 使 之 具有 更 大 的 灵活 性 。 我 们 在 上 文中 对 多 标记 的 表示 方法 ， 与 
这 里 的 FD (2) 比较 接近 ， 因 为 MMT 模 型 对 于 结构 层次 的 描述 ， 是 通 


过 多 又 树 来 表示 的 ， 所 以 ， 在 只 摘 述 句子 的 代数 值 的 多 标记 集合 
忠 没 有 必要 再 强调 结构 特性 的 描述 了 。 


把 功能 摘 述 看 作 有 是非 结 构 性 的 多 标记 集合 ， 束 有 可 能 用 集合 论 的 
标准 运算 来 处 理 它 们 。 但 是 ， 功 能 朱 述 FD 又 不 完全 服从 集合 论 的 运 
算 : 集合 论 运算 一 般 并 不 考虑 运算 对 和 象 的 相 容 性 ， 而 功能 描述 FD 则 必 
须 考虑 运算 对 象 的 相 容 性 。 


如 果 有 两 个 功能 描述 中 都 包含 一 个 共同 的 属性 ， 而 这 个 共同 的 属 
性 在 这 两 个 功能 描述 中 的 值 (可 以 是 符号 ， 也 可 以 是 另外 的 FD) 不 相 
同 ， 那 么 ， 这 两 个 功能 描述 就 是 不 相 容 的 。 例 如 ， 如 果 功 能 描述 F1 中 
含有 基本 标记 <A>=x， 功 能 描述 F2 中 含有 基本 标记 <A>=y， 那 么 ， 除 
非 x=y， 否 则 ，F1 和 FE2 不 相 容 。 如 果 两 个 功能 描述 不 相 容 ， 那 么 ， 在 
进行 集合 论 中 的 “并 ”运算 时 ， 运 算 的 结果 ， 就 不 会 是 一 个 合格 的 功能 
描述 。 


例如 ,假定 功 能 描述 F1 所 描述 的 句子 中 含有 一 个 施 事主 语 ， 而 功 
能 描述 F2 所 描述 的 句子 中 含有 一 个 受 事主 语 ， 那 么 ， 如 果 S1 和 S2 是 它 
们 相应 的 基本 标记 集合 ， 那 么 它们 的 并 集 S1US2 束 不 是 合格 的 ， 因 为 
这 个 并 集中 ，<subj sem> = AGENT 和 <subj sem> = PATIENT 不 相 容 。 


对 于 语法 上 有 歧义 的 句子 或 词组 ， 需 要 两 个 或 两 个 以 上 的 不 相 容 
的 功能 描述 来 表示 。 例 如 ,“ 三 个 学 校 的 实验 员 来 了 ”这 个 句子 是 有 改 
义 的 ， 它 有 两 个 意思 。 一 个 意思 可 用 功能 描述 FD (3) 来 表示 ， 男 一 
个 意思 可 用 功能 描述 FD (4) 来 表示 : 


FD(3): r «cat» =S 


( «cat». = NP \ 
<head> =“ 实 验 员 ” 
<subj > = ' <cat> = NP 
<modf > = sk> = ae 


«quant» = 3 
«pres» = 来” 
<tense > = PAST 
<voice > = ACTIVE 


FIX 4) /«dat» = S 
<cat> = NP 
«head» = “实验 员 ， 
<subj > = <cat> = NP 
S <modf> =| <head> = 学校 
<quant> = 3 
«pred» =’ 
«tense» = n 


« voice > = ACTIVE 
可 以 看 出 ， 在 FD (3) 中 ， 句 子 的 意思 是 只 来 了 3 个 实验 员 ， 而 这 


3 个 实验 员 是 学 校 的 实验 员 ， 在 FD (4) 中 ， 句 子 的 意思 是 来 了 
些 实验 员 ， 而 这 些 实验 员 分 属 3 个 不 同 的 学 校 。 


几 个 不 相 容 的 简单 的 功能 描述 FD: F1,.., Fk， 可 以 合并 成 为 一 个 
单独 的 复杂 的 功能 描述 FD: (Fl. Fk}, 复杂 的 功能 描述 表示 分 量 的 
对 象 集 的 合并 ， 其 中 的 不 相 容 部 分 ， 应 该 用 花 括 号 括 起 来 。 下 面 是 把 
FD (3) 和 FD (4) 合并 而 成 的 复杂 的 功能 描述 FD (5) ， 它 描述 了 
FD (3) 和 FD (4) 所 分 别 表示 的 两 种 结构 关系 : 


FD(5): r «cat» = S 
«cat» - NP | 
«head» = XRRR’ 
<cat> = NP 
<modf > = 
. «head» = “学 校 
< subj > = 
«quant» = 3 
<cat> = NP 
<modf> =| <head> = 学校” | 
«quant» - 3 


«pred» = 来- 
<tense > = PAST 
<voice > = ACTIVE 
D (5) 中 的 花 括 号 表示 不 相 容 的 功能 描述 或 子 功能 描述 之 间 的 
析 取 关系 。 用 这 种 复 杂 功能 描述 的 紧 凌 形式 ， 可 以 描述 大 量 的 互 不 相 
容 的 对 象 。 一 般 地 说 ， 功 能 合 一 语法 中 的 语法 规则 可 以 用 一 个 统一 的 
功能 描述 FD (6) 表示 如 下 : 


FD( 6 ): < cat > 


C, 


« cat » 


|| 
£a 


对 于 采用 这 种 多 标记 集合 来 描述 的 系统 来 说 ， 其 朱 述 的 详尽 程度 
征 没有 限制 的 。 一 个 描述 中 所 包含 的 标记 越 多 ， 它 对 所 撕 述 的 对 象 的 
限定 也 束 越 具体 ， 如 有 果 从 一 个 摘 述 中 撤消 菜 些 标记 ， 束 可 能 扩大 它 所 
描述 的 对 象 的 覆盖 面 。 因 此 ， 有 灵活 地 控制 标记 的 数量 ， 认 真 地 选择 标 
记 的 内 容 ， 才 可 以 使 用 多 标记 集合 对 目 然 语言 进行 恰当 的 描述 。 


在 机 颖 翻译 的 机 絮 词 典 中 ， 对 于 每 一 个 单词 的 定义 不 仅仅 标 出 其 
词类 ， 而 且 ， 还 应 该 标 出 这 个 词 的 静态 的 词法 标记 、 句法 标记 和 语义 
标记 ， 这 束 是 在 词 这 一 级 采用 多 标记 集合 。 根 据 MMT 模 型 的 双人 态 理 
论 ， 随 看 目 动 句法 分 析 的 推进 ， 句 于 中 的 每 个 单词 除了 被 标注 上 来 目 
词典 中 的 这 些 静 态 标 记 之 外 ， 在 表示 句子 层次 结构 的 树 形 图 的 每 个 结 
点 上 ， 还 会 运算 出 一 些 动态 标记 ， 它 们 大 大 地 充实 了 来 目 词典 中 的 静 
态 标 记 的 内 容 ， 这 些 标记 特征 当然 也 要 以 多 标记 集合 的 形式 来 标注 ， 
这 殉 是 在 句法 分 析 和 语义 分 析 一 级 采用 多 标记 集合 ， 多 标记 集合 中 的 
各 种 标记 ， 可 以 在 短语 归并 的 过 程 中 从 中 心 词 的 已 有 标记 中 直接 继承 
过 来 ， 也 可 以 根据 句法 语义 规则 动态 地 通过 计算 机 计算 出 来 。 在 原 语 
目 动 分 析 中 采用 这 样 的 多 标记 集合 ， 有 效 地 解决 了 上 收 义 结构 的 判定 问 
题 ， 并 且 把 句法 分 析 和 语义 分 析 通 过 多 标记 集合 这 种 手段 有 机 地 结合 
起 来 ， 从 而 提高 原 语句 法 语义 分 析 的 效率 。 


我 们 提出 多 标记 集合 概念 ， 受 到 了 音 位 学 中 * 区 别 特 征 理 论 ” 的 很 
AJA ° 1951F, FEB) fh (R. Jakobson) 指出 ， 一 切 语音 都 不 是 单 
元 性 的 (monadic) ， 它 们 还 可 以 进一步 分 成 一 对 对 的 最 小 对 立体 ， 而 
且 这 些 最 小 对 立体 可 以 被 归纳 为 十 二 对 区 别 特征 ， 这 样 ， 束 把 传统 音 
位 学 中 一 个 个 不 可 分 解 的 元 音 和 辅音 变 为 可 分 解 的 区 别 特征 的 集合 。 
这 一 理论 使 得 语言 学 家 有 可 能 通过 逻辑 描述 的 方法 来 分 析 和 鉴定 首位 
的 结构 ， 把 音 位 学 的 理论 提高 到 一 个 新 的 阶段 。 在 早期 的 短语 结构 语 


BA, Ue A ARAMA, EAR APE Be pe HZ 
前 的 音 位 一 样 ， 也 是 只 具有 单元 性 的 单位 ， 采 用 多 标记 集合 来 描述 这 
Ea: Za, BAHL, ORR AAEM Ne CPE, E 
们 也 具有 结构 ， 因 而 它们 不 能 采用 单一 的 标记 ， 而 必须 采用 多 标记 集 
合 来 措 述 。 当 然 ， 目 然 语言 处 理 中 的 多 标记 集合 中 表示 的 语言 特征 比 
音 位 学 中 的 区 别 特征 要 丰富 得 多 ， 它 们 不 仅 是 二 元 对 立 的 ， 而 且 还 是 
£7UN Bg, MMARATED, MARR ARRAY ` RUA 
构 ， 所 以 ， 对 于 多 标记 集合 殉 不 能 采用 一 般 的 集合 论 方法 来 运算 。 


我 们 参照 功能 合 一 语法 ， 采 用 "“ 合 一 ”这 种 独特 的 运算 方式 来 对 多 
标记 集合 进行 运算 。 


*&—" (unification) 这 个 术语 最 初 是 在 数理 逻辑 的 一 阶 谓词 演算 
中 开始 使 用 的 。 寻 找 某 种 项 对 变量 的 置换 ， 从 而 使 表达 式 一 致 的 过 程 
叫做 合 一 。 如 果 存 在 一 个 置换 S$， 把 它 作 用 到 表达 式 集 {Ei } 中 的 每 一 
DRE, EEs = Es = .= Eu。， 那 么 ， 吏 说 表达 式 集 {Ei } 是 可 合 
一 的 ，S 就 叫做 {E; } 的 合 一 者 (unifier) ， 因 为 它 的 作用 是 使 该 集合 简 
ILS — EUST ° 


例如 ， 有 两 个 逻辑 项 A: f (x,y) MB: f (g (y a, c) h (a, 
b) ) ， 如 果 用 逻辑 项 C: x-g (h (a,b) ,a,c) 和 D: y=h (a,b) 置换 
A、B 中 的 变量 x 和 y， 则 置换 之 后 A、B 均 成 为 f (g (h (a,b) ,ac) ,h 
(a,b) ) ， 使 得 A 和 B 都 成 为 一 致 的 形式 ， 这 个 结果 叫做 A、B 的 合 
一 ，C 和 D 叫 做 A、B 的 合 一 者 ，A、B 叫 做 可 合 一 的 逻辑 项 。 


日 前 ， 这 种 合 一 运算 已 经 被 广泛 地 应 用 于 高 阶 逻辑 、 计 算 复 杂 性 
理论 、 可 计算 性 理论 、 逻 辑 程 序 设 计 等 领域 ， 并 进一步 发 展 到 计算 语 


言 学 、 机 大 翻译 、 目 然 语言 理解 和 人 工 智能 等 领域 。 


合 一 运算 被 如 此 广泛 应 用 的 原因 之 一 是 逻辑 程序 设计 语言 
PROLOGHI #2, KI NPROLOGZE# AF 4) (Hom clause) 的 归结 过 
程 中 所 依据 的 基本 运算 之 一 就 是 合 一 运算 。 


ini 


TEMMTEZE FUE A ie ORE FP Be Te LEED BH 
成 一 个 单独 的 功能 描述 FD。 具 体 地 说 ， 如 果 有 两 个 以 上 简单 的 功能 描 
述 FD 有 是 相 容 的 ， 便 可 通过 合 一 运算 把 它们 合并 成 一 个 简单 的 功能 摘 述 
FD， 使 得 这 个 功能 描述 FD 所 描述 的 对 象 正 是 前 面 看 干 个 功能 摘 述 FD 
所 共同 描述 的 对 象 。 


这 样 的 合 一 运算 与 集合 论 中 的 求 并 运算 十 分 类 似 ， 但 合 一 运算 与 
求 并 运算 的 不 同 之 处 在 于 ， 当 合 一 被 应 用 于 不 相 容 的 项 时 ， 合 一 失 
败 ， 并 产生 一 个 空 集 。 


求 并 运算 所 得 到 的 并 集 是 参与 运算 的 各 个 集合 里 所 有 不 同 元 聚 组 
成 的 集合 。 例 如 ， 


{A, B}U{C, B} = {A, B, C} 
在 求 并 运算 时 ， 总 是 把 集合 中 的 元 素 看 成 是 不 可 分 解 的 原子 .即使 
元 素 是 有 序 的 偶 对 ， 如 (fi , vi) 表示 特征 fi 的 值 为 v; ， 求 并 运算 时 仍 
然 把 它们 看 成 是 不 可 再 分 解 的 个 体 ， 而 不 考虑 它们 的 内 部 结构 。 假 设 
a={ (fj, v4 ) , (15; V5.) j 
B={ (tia vied } 


即使 vi ž v1 '，a 与 B 所 表达 的 信息 互相 抵触 ， 在 进行 求 并 运算 之 后 ， 其 
并 集 仍然 为 


y=aUB={ EVI) , SUME , (555 5:) } 


在 并 集中 虽然 保持 了 抵触 的 信息 ， 不 过 ， 从 信息 组 合 和 传递 的 角 
度 来 看 ， 所 求 得 的 并 集 Y 是 没有 意义 的 。 


合 一 运算 必须 考虑 运算 结果 的 合理 性 ， 在 合 一 运算 中 ， 当 o 与 p 所 
表达 的 信息 相互 抵触 时 ， 其 合 一 结果 为 空 集 〈 记 为 gw ) ， 表 示 合 一 
失败 。 如 果 用 符号 u 表 示 合 一 ， 则 有 

AUB = (2 
下 面 我 们 给 出 在 MMT 模 型 中 合 一 运算 的 形式 定义 : 


[EX] 合 一 运算 (运算 符号 用 U 表 示 ，) 

1. 若 a 和 b 均 为 原子 ， 则 aub=a， 当 且 仅 当 a=b; Fill aub=@ . 
2. BOA PLN Sinica, Ill 

Oa (f =v, EB (D 的 值 未 经 定义 ， 则 f=v 属 于 auB; 
OEB (f) =v, Ba (f) 的 值 未 经 定义 ， 则 f=v 属 于 auB; 


OFa (£) =V > p (f) 一 V? ， Hv, Fiv> 不 相抵 触 ， Wit (v Uv, 
) 属于 aup; 否则 aUB = 2. 


从 这 个 定义 可 以 看 出 ， 集 合 论 中 的 求 并 运算 是 合 一 运算 的 一 种 特 
殊 情 况 。 当 合 一 的 对 象 所 舍 的 元 素 为 不 可 分 解 的 原子 时 ， 合 一 的 结 采 


等 于 并 集 。 当 合 一 的 对 象 是 有 结构 的 多 标记 集合 时 ， 就 要 检验 标记 的 
相 容 性 ， 只 有 当 标 记 相 容 时 ， 相 应 的 各 个 标记 才能 合 一 。 因 此， 合 一 
运算 具有 两 种 作用 : 一 个 是 合并 原 有 的 标记 信息 ， 构 造 新 的 标记 结 
构 ， 这 与 集合 论 中 的 求 并 运算 类 似 ; 另 一 个 是 检查 标记 的 相 容 性 和 规 
则 执行 的 前 提 条 件 ， 如 采 参 与 合 一 的 标记 相 冲 突 ， 束 立即 宣布 合 一 失 
败 。 可 见 ， 合 一 运算 提供 了 一 种 在 合并 各 方面 来 的 标记 信息 的 同时 ， 
检验 限制 条 件 的 机 制 。 这 正 古 目 然 语言 处 理 的 句法 语义 分 析 所 需要 
的 ， 因 而 它 受 到 目 然 语言 处 理工 作者 的 欢迎 。 


我 们 举例 来 说 明 如 何 进 行 合 一 运算 。 
例 1. 


«cat» =N 
( «cat» =N «cat» =N «lex» = “小 王 ” 
| «lex» =“ 小 王 ” M «num» = wo «sem» - AGENT 
«sem » - AGENT 


«per» = 3 «num» = SING 


<per> = 3 
由 于 参与 合 一 运算 的 两 个 功能 描述 中 的 多 标记 是 相 容 的 ， 因 此 ， 
合 一 运算 的 结 采 等 于 这 两 个 功能 撕 述 中 的 多 标记 求 并 。 


<sem> = AGENT 

由 于 这 两 个 功能 描述 中 ， 第 一 个 功能 描述 中 的 sem=AGENT 第 二 
个 功能 描述 中 的 sem=PATIENT 相 互 抵 触 ， 因 而 合 一 运算 的 结果 为 
NIL， 表 示 合 一 失败 。 


<cat> = N <cat> =N 
«lex» = "小 王 ” |U| «sem» = PATIENT | 一 NIL 
«per» = 3 


例 3. 


<num> = PLUR 
| <form > =" 2s) «cat» = PRONOUN 
« num > SING p? 
| «form» = “FR” | 


«num > = SING 


iod = | 
<num> = SING 
Bun cc. ] 
第 一 个 功能 描述 是 由 不 相 容 的 两 个 简单 功能 描述 合并 而 成 的 复杂 
功能 描述 ， 它 与 第 二 个 功能 描述 进行 合 一 运算 时 ， 取 相 容 的 标记 作为 
合 一 运算 的 结 末 。 由 于 第 一 个 复杂 功能 描述 中 的 标记 


«num» e PLUR 
«form» = “我们 


与 第 二 个 功能 描述 中 的 标记 不 相 容 ， 故 被 舍 去 。 


一 般 地 说 ， 两 个 复杂 功能 描述 的 合 一 结果 仍然 是 复杂 功能 描述 ， 
其 中 ， 每 一 项 代表 原来 的 功能 描述 中 的 一 对 相 容 项 。 因 此 ， 


me 


=e 


{a1 ,aa ,an J U {b,,b5,..., b) 


就 得 到 一 个 形式 为 {ci , cs, .…, ck } 的 功能 描述 ， 其 中 每 一 个 
(1<h<k) 都 是 一 对 相 容 项 的 合 一 结果 ai = bj (xin 1<j<m) ° 


由 此 可 见 ， 合 一 运算 应 该 具有 如 下 的 性 质 : 


1. 合 一 运算 可 以 对 信息 进行 相 加 


例如 ， 


| «cat > =PRONOUN | U | < agreement > =| <num> =SING | | 
| <cat> = PRONOUN | 
= 


< agreement > = [| «num» = SING | 


其 中 ， 标 记 AGREEMENT 表 示 一 致 关 系 
2. 合 一 运算 是 大 等 的 : 


例如 ， 


<cat > =PRONOUN 
| «cat» = PRONOUN ] U 
< agreement > =| «num » =SING | 
<cat > = PRONOUN 
| <agreement > = [ <num> = SING] 
前 一 个 标记 集合 中 的 <cat>=PRONOUN 被 吸收 到 后 一 个 标记 集合 


= 


<cat > = PRONOUN 
| <agreement > = | <num > = SING jJ 


«cat» = PRONOUN 
| «agreement > = | «num» = SING j 


空白 项 与 多 标记 集合 进行 合 一 ， 则 该 空白 项 被 多 标记 集合 吸收 。 


4. 当 标 记 值 相 容 时 ， 相 同 的 标记 可 以 


合 一 : 


例如 ， 


< agreement > = | «num» = SING | 
| «subj» = | < agreement > = | <num> = SING | j 
U( «subj» =| «agreement» =| «per» = 3 J) 


< agreement > = [ «num» = SING ] 
| <num > = a 


«subj» = | «agreement > = 
<per> =3 


由 于 前 后 的 多 标记 集合 中 ， 标 记 <subj> 和 标记 <agreement> 的 中 的 
标记 值 <num> = SING 和 <per> = 3 是 相 容 的 ， 所 以 ， 合 一 后 形成 多 标记 
集合 


<num> = SING 
| <subj > = | <agreement > = | Ji 


«per» = 3 
URE BAS ale RA MAK, HARB 
然 语 言 中 的 句法 成 分 和 语义 成 分 都 可 由 较 小 的 成 分 合成 较 大 的 成 分 ， 


那么 ， 采 用 合 一 作为 句法 和 语义 分 析 的 基本 运算 便 是 非常 理想 的 了 。 
这 是 因为 ， 


第 一 ， 一 个 语言 单位 (如 句子 或 词组 等 ) 所 负载 的 信息 可 以 分 布 
在 各 个 成 分 之 中 ， 每 个 成 分 所 负载 的 可 以 只 是 部 分 的 信息 。 


第 二 ， 通 过 合 一 运算 ， 在 小 成 分 组 合成 大 成 分 的 过 程 中 ， 小 成 分 
所 负载 的 信息 也 同时 被 传递 或 素 加 为 大 成 分 所 负载 的 信息 ， 在 合 一 运 
算 过 程 中 ， 信 息 只 逐渐 增加 而 不 减少 。 


第 三 ， 由 于 句法 和 语义 分 析 都 以 合 一 作为 基本 运算 ， 不 仅 句 子 的 
合法 性 可 以 通过 语义 手段 来 判断 ， 而 且 ， 还 可 以 把 句子 的 句法 结构 和 
语义 表示 用 合 一 运算 这 种 方式 更 加 上 自然 地 衔接 起 来 。 


第 四 ， 不 同 的 功能 描述 的 合 一 运算 结果 ， 同 这 个 运算 所 进行 的 先 
后 次 序 无 和 关 ， 不 论 合 一 从 哪个 方 网 开始 ， 也 不 论 是 先 合 一 还 是 后 合 
一 ， 合 一 的 结果 都 是 相同 的 。 合 一 运算 的 这 种 无 序 性 非常 便于 进行 并 
行 处 理 ， 而 且 还 使 我 们 有 可 能 目 由 地 选择 分 析 算 法 和 目 然 语言 描述 的 
语法 理论 。 


下 面 ， 我 们 来 说 明 在 词 条 定义 、 句 法 规则 、 语 义 规 则 和 句子 的 摘 
述 中 ， 怎 样 来 全 面 地 、 系 统 地 使 用 多 标记 集合 。 


1. 词 条 定义 的 描述 : 


例如 ， 单 词 “ 仪 表 ” 有 两 个 义 项 ， 在 词 条 “仪表 ”中 ， 可 给 出 两 条 害 
义 ， 每 一 条 定义 的 形式 都 多 标记 集合 的 功能 描述 FD. 见 FD (7) 、FD 


FD (7) : 
€ pa = IN 
«sem > = EQUIPMENT 
«lex» = 仪表 


FD (7) 表示 “仪表 ”是 名 词 ， 它 的 固有 语义 标记 是 “ 设 
备 ”(EQUIPMENT) ° 


FD (8) : 
<cat> <= IN 
<sem> = APPEARANCE 
«lex» = 仪表 


FD (8) 表示 “仪表 ”是 名 词 ， 它 的 固有 语义 标记 是 “ 形 
tk? (APPEARANCE) 。 


2. 句法 规则 的 描述 : 


fau, FD (9) 和 FD (10) 分 别 是 “把 字句 ”和 “被 字句 ”的 规则 : 


FD (9) : 


<cat > ec 
< patterns > =(... 把 -PHRASE ... PREDICATE ... ) 
IS -| = NP | 
«sem > = AGENT 
<cat> = V 
< predictor > = | < transitivity > = mw 
<voice > = ACTIVE 
«eat» = NP 


<cat > = PREPOSITION 
<“ 把 ” — phrase > = SE | «lex» =“ 把 ” | 
«sem > = PATIENT 
| < definiteness > = DEFINITE | 
«voice > = ACTIVE 


上 面 句法 规则 描述 中 符号 的 含义 从 相应 的 英文 词 的 词义 不 难 体会 
出 来 ， 不 再 资 述 。 


标记 patterns 的 值 是 有 序 的 ， 它 规定 了 “把 字句 * 中 语言 成 分 的 基本 
顺序 ， 这 样 ， 根 据 标记 patterns 的 值 就 可 以 安排 和 调整 有 关 语 言 成 分 的 
位 置 。 (... 把 -PHRASE ... PREDICATE ...) 表示 “把 ” 字 短 语 在 谓语 动词 
ZH, 而且 在 谓语 动词 之 后 ， 还 应 该 有 其 它 的 语言 成 分 
(用 “PREDICATE ...” 来 表示 ) ， 用 以 说 明 动作 的 结果 或 影响 ， 它 们 可 
以 是 动态 助词 < 了 ”或 “着 >”、 重 县 的 动词 、 各 种 补 语 等 等 。 


这 条 规则 的 调用 条 件 是 : 
1. 句法 成 分 的 <cat> = S; 
2. 谓语 动词 是 一 个 及 物 动词 ， 即 


<transitivity> = TRANSITIVE; 


3.“ 把 -phrase” 中 的 NP 是 有 定 的 ， 即 

<definiteness> = DEFINITE; 
4. YHTR SIR RARES, MREGA] ^ 
FD (10) 


<cat> = S 
< patterns > = (... 被 -PHRASE ... PREDICATOR ... ) 
<cat > = NP 
<sem > = PATIENT 
<cat> = V 
< predicator > =| < transitivity > = TRANSITIVE 
«voice > = PASSIVE 
(<cat> = NP 
<cat> = PREPOSITION 
«lx» = 被” 
<sem > = PATIENT 
<voice > = PASSIVE 


«subj» = 


< 被 -phrase> =| <prep> = 


ER id patterns 中 的 (... #-PHRASE .. PREDICATE...) ， 表 
示 “ 被 ”* 字 短语 在 谓语 动词 之 前 ， 而 且 在 谓语 动词 之 后 ， 还 有 其 它 成 
分 ， 说 明 动 作 的 结果 或 影响 ， 它 们 可 以 是 动态 助词 “了 ”或 * 过 ”、 补 


Be RAE AY 
语 、 宾 语 等 等 。 


这 条 规则 的 调用 条 件 古 : 
1. 句法 成 分 的 <cat> = S; 
2. 谓语 动词 是 及 物 动 词 ， 即 


<transitivity> = TRANSITIVE 


3. 谓语 动词 之 后 带 有 其 他 成 分 ， 不 能 是 光 杆 动词 。 


可 以 看 出 , “把 字句 ”和 “被 字句 ”的 调用 规则 是 很 接近 的 ， 不 同 之 
处 在 于 ,“ 把 字句 ?中 的 “把 ” 字 短 语 是 有 定 的， 因为 “把 字句 ”有 处 置 的 


3. 句子 结构 的 描述 : 


例如 ， 句 子 “ 我 吃 了 担 担 面 ?的 结构 可 用 FD (11) 来 描述 : 


FD (11) : 


«cat» =S 
< patterns > = ( SUBJ PREDICATOR DIRECT-OBJECT ) 
<voice > = ACTIVE 

<cat> = NP 

< pattern > = ( HEAD ) 


<case > = NOM 
<num> = SING 
<head> = 
exiles «per» = 1 
sub = " 
J | «lex» = "我 


<num> = SING 
<definiteness > = DEFINITE 


| «per» = 1 
| <sem> = AGENT 
<cat> = VP 
| «ca» = V 
< patterns > = (HEAD ATTACHING-ELEMENT ) 
| bg. n < transitivity > = TRANSITIVE 
| <voice > = ACTIVE 
| <aspect> = PERFECT 
<predicator > = <lex> s“ 
«cat». = PARTICLE 
< attaching-element > = | < subcategory > = ssrecron 
«lex» =“T” 


| < transitivity > = TRANSITIVE 

| € voice > = ACTIVE 
«aspect». = PERFECT 

| «cat» = NP 

| < patterns > =( HEAD) 


«cat» = N 

< definiteness > = INDEFINITE 
; A <head> = 
< direct-object > = «per» = 3 


«lex» =“ 担 担 面 ” 


<sem> = PATIENT 
<definiteness > = INDEFINITE 
<per> =3 


这 个 功能 描述 中 ， 不 仅 包括 了 对 单词 、 词 组 和 句子 等 各 级 语言 成 
分 的 特征 和 功能 的 描述 ， 而 且 ， 还 说 明了 中 心动 词 “ 吃 ”的 施 事 、 受 事 
等 语义 关系 方面 的 内 容 。 


复杂 特征 集 与 合 一 运算 是 20 世 纪 80 年 代目 然 语言 处 理 研究 的 主要 
潮流 。 当 时 ,在 自然 语言 处 理 中 进行 了 “基于 复杂 特征 的 方 
iX" ( comlex-feature-based ) 、“ 基 于 合 一 的 语法 形式 化 方 
iX" (unification-based grammar formalism) 等 这 有 一 般 性 方法 论 意 》 


的 研究 ， 复 杂 特 征集 与 合 一 运算 的 理论 和 方法 ， 正 在 沿 着 不 同 的 历史 
线索 迅速 地 发 展 起 来 。 中 文 信息 MMT 模 型 在 这 种 理论 和 方法 的 发 展 过 
程 中 ， 进 一 步 丰富 了 目 己 的 内 容 ， 完 善 了 目 己 的 方法 ， 并 且 促 进 了 中 
国 自然 语言 处 理 研 究 的 世界 化 。 
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第 八 章 语义 目 动 处 理 


目 然 语 言 的 计算 机 处 理 ， 除 了 进行 形态 目 动 处 理 和 人 句法 目 动 处 理 
之 外 ， 还 要 进行 语义 目 动 处 理 。 


天 于 语义 目 动 处 理 和 人 句法 目 动 处 理 的 关系 ， 在 现 有 的 目 然 语言 处 
理 系 统 中 还 有 不 同 的 处 理 办 法 ， 有 的 系统 采用 “ 先 句 法 后 语义 ”的 办 
法 ， 有 的 系统 采用 “句法 语义 一 体 化 ”的 办 法 。 


所 谓 “ 先 句法 后 语义 ”"， 就 是 在 目 然 语 言 的 分 析 系 统 中 ， 首 先进 行 
独立 的 句法 分 析 ， 得 到 表示 输入 句子 的 句法 表示 式 ， 然 后 再 经 过 独立 
的 语义 分 析 ， 获 得 输入 句子 的 语义 表示 式 。 在 句法 分 析 中 ， 虽 然 也 要 
利用 附加 在 词 和 词组 上 的 某 些 必要 的 语义 信息 ， 但 主要 的 依据 是 词法 
和 句法 信息 。 这 一 类 系统 的 程序 设计 不 依赖 于 某 个 特定 的 领域 ， 具 有 
较 好 的 可 移植 性 和 可 扩展 性 。 


所 谓 “ 句 法 语义 一 体 化 ”>， 是 指 在 目 然 语言 分 析 系 统 中 ， 不 单独 设 
置 一 个 句法 分 析 模 块 ， 而 是 句法 分 析 和 语义 分 析 并 行 ， 或 者 根据 某 些 
语义 模式 ， 直 接 从 输入 句子 求 出 其 语义 表示 式 。 这 一 类 系统 往往 可 以 
有 效 地 处 理 某 些 有 语法 错误 或 者 信息 不 全 的 名 了 于， 根据 语义 线索 直接 
获得 对 句子 的 语义 解释 ， 但 是 ， 由 于 句法 信息 不 充分 ， 语 义 分 析 往 往 
MEF ZS ° 


不 论 采取 那 一 种 办 法 ， 语 义 分 析 都 是 必 不 可 少 的 。 所 以 ， 语 义 分 
析 同 句法 分 析 一 样 ， 它 们 都 是 目 然 语 言 处 理 的 最 基本 的 功能 模块 。 


人 工 智能 的 核心 课题 是 知识 表达 的 人 研究， 而 知识 实际 上 也 避 ® 古 有 
意义 的 、 反 映 世界 状况 的 符号 集合 。 知 识 表 达 离 不 开 语 义 分 析 ， 表 达 
目 然 语 言语 句 意 义 的 问题 是 与 知识 表达 的 问题 融 为 一 体 的 ， 目 然 语 言 
语义 的 研究 ， 必 然 会 对 人 工 智能 中 知识 表达 的 理论 产生 重要 的 影响 。 


本 章 中 ， 我 们 主要 介绍 意义 的 形式 化 表示 方法 ， 一 阶 谓 词 演算 ， 
讨论 各 种 语义 分 析 方 法 ， 如 句法 驱动 的 语义 分 析 、 语 义 语法 、 浅 层 语 
义 分 析 、 义 素 分 析 法 、 语 义 场 。 语 言 中 的 词汇 具有 高 度 系统 化 的 结 
构 ， 正 是 这 种 结构 决定 了 单词 的 意义 和 有 用法， 因此， 我们 还 要 介绍 结 
构 语义 学 。 


BT ”语言 意义 的 形式 化 表示 方 
法 与 谓词 论 元 结构 


语言 的 意义 可 以 使 用 形式 化 的 方法 来 捕捉 ， 这 种 形式 化 方法 叫 
做 “意义 表示 ”(meaning representation) 。 之 所 以 需要 这 样 的 意义 表 
示 ， 其 原因 在 于 : 不 论 是 没有 加 工 过 的 语言 输入 ， 还 是 用 我 们 前 面 研 
究 过 的 任何 目 动 句 法 分 析 方 法 推导 出 来 的 结构 ， 都 不 能 形式 化 地 表示 
出 语言 的 营 义 。 更 加 有 具体 地 说 ， 我 们 所 需要 的 意义 表示 能 够 在 从 语言 
输入 到 与 语言 输入 意义 有 天 的 各 式 各 样 的 具体 任务 所 需要 的 非 语 言 知 
识 之 间架 起 一 座 桥梁 。 我 们 取 语 言 的 输入 来 构造 意义 表示 ， 这 样 的 意 
义 表示 要 使 用 那些 与 表示 日 常生 活 中 的 常识 性 的 世界 知识 同样 的 材料 
来 构成 。 产 生 这 样 的 意义 表示 并 且 把 它们 指派 给 语言 输入 的 过 程 叫 
做 “语义 分 析 ” (semantic analysis) 。 


1. 语言 意义 的 四 种 形式 化 表示 方法 


为 了 把 这 个 概念 说 得 更 加 具体 ， 我 们 以 *Ihave a car”( 我 有 一 辆 汽 
车 ) 这 个 句子 为 例 来 说 明 在 自然 语言 处 理 中 经 常 使 用 的 四 种 常见 的 意 
义 表示 方法 。 


e 一 阶 谓词 演算 (First Order Predicate Calculus， 简 称 FOPC) 表示 
iE 


“I have acar 可 以 表示 如 下 : 


dx, y Having (x) A Haver (Speaker, x) A HadThing (y,x) A Car 
(y) 


这 里 ，3 是 存在 量词 ，Having, Haver，HadThing 和 Car 都 是 谓词 ， 
分 别 表示 “具有 ”, “所 有 者 ”, “所 有 物 ” 和 * 汽 车 ”>，x 和 y 是 变 元 。 


这 个 表达 式 的 意思 是 ， 存 在 变 元 x 和 y， 说 话 人 x 是 “所 有 者 ”，y 
是 “汽车 "，y 是 x 的 “所 有 物 ”。 


e 语义 网 络 (semantic network) 表示 法 


“I have acar 可 以 表示 如 下 : 


[| Having | 


Haver HadThing 
Speaker Car 


图 8.1 语义 网 络 


这 个 语义 网 络 表 示 的 是 一 种 “Having”( 具 有 ) 关系 ， 所 有 者 (Haver) 
是 说 话 人 (Speaker) ,“ 所 有 物 ”(HadThing) 是 汽车 (Car) ° 


e 概念 依存 图 (Conceptual Dependency diagram) 表示 法 


“I have acar 可 以 表示 如 下 : 


Car 


POSS-BY 
Speaker 


图 8.2 ”概念 依存 图 


在 这 个 概念 依存 图 中 ，POSS-BY 表 示 “ 所 有 关系 ”(possession) ， 说 话 
ES (Speaker) 是 所 有 者 ， 汽 车 (Ca) 是 所 有 物 。 


e 基于 框架 的 表示 法 (Frame-based Representation) 


“I have acar 可 以 表示 如 下 : 


Having 
Haver: Speaker 


HadThing: Car 


这 是 一 个 表示 Having 关 系 的 框架 ， 它 包括 两 个 柳 ， 每 一 个 槽 都 有 填充 
物 ， 第 一 个 模 是 “所 有 者 ”(Haver) ， 填 充 物 是 “说 话 人 ”， 第 二 个 酸 
是 “所 有 物 ”(HadThing) ， 填 充 物 是 “汽车 ”。 


这 些 意义 表示 方法 都 可 以 把 语言 输入 同 外 部 世界 和 我 们 关于 外 部 
世界 的 知识 联系 起 来 。 


尽管 这 四 种 不 同 的 表示 方法 有 很 多 差别 ， 但 是 ， 在 抽象 的 层次 
上 上， 它们 都 有 一 个 共同 的 概念 基础 ， 这 束 是 ， 意义 表示 是 由 符号 的 集 
合 所 组 成 的 结构 而 构成 的 。 如 采 我 们 适当 地 对 这 些 符号 进行 安排 ， 那 
么 ， 这 些 符号 结构 束 可 以 同 在 某 个 被 表示 的 世界 中 的 实体 以 及 这 些 实 
体 之 间 的 关系 对 应 起 来 。 在 这 种 情况 下 ， 这 四 种 意义 表示 都 使 用 了 分 
别 对 应 于 说 话 人 、 汽 车 以 及 说 明 彼 此 之 间 的 所 属性 质 的 一 些 关 系 。 


应 该 注意 ， 在 所 有 这 四 种 方法 中 的 这 些 意义 表示 ， 至 少 可 以 从 两 
个 不 同 的 视角 来 看 :一 方面 ， 把 它们 看 成 是 特定 语言 输入 “] have a 
car” 的 意义 表示 ， 男 一 方面 ， 把 它们 看 成 是 在 某 个 世界 中 的 事件 状态 
的 表示 。 正 是 这 种 双重 的 视角 使 得 这 些 意义 表示 可 以 用 来 把 语言 输入 
和 世界 以 及 我 们 关于 世界 的 知识 联系 起 来 。 


这 样 的 意义 表示 需要 有 能 力 文 持 语义 处 理 的 计算 要 求 ， 包 括 需 要 
确定 命题 的 真 值 ， 能 够 文 持 无 歧义 的 表示 ， 能 够 表达 变量 ， 能 够 文 持 
推理 ， 以 及 具有 充分 的 表现 力 。 上 面 这 四 种 意义 表示 都 具有 这 样 的 能 
He 


2. 谓词 论 元 结构 ( Predicate- 
Argument Structure) 


人 类 所 有 的 语言 在 它们 的 语义 结构 的 核心 部 分 都 有 一 种 谓词 论 元 
排列 的 形式 ， 叫 做 “谓词 论 元 结构 ” (Predicate-Argument Structure) 


人 类 语言 具有 各 种 各 样 的 特征 来 传达 意义 。 其 中 最 为 重要 的 特征 是 表 
达 谓 词 论 元 结构 的 能 


这 种 谓词 论 元 结构 表示 了 隐藏 在 构成 句子 的 单词 和 短语 的 成 分 的 
帮 层 之 下 的 各 个 概念 之 间 存 在 着 的 特定 关系 。 这 个 底层 的 结构 在 很 大 
的 程度 上 能 够 从 输入 的 各 个 部 分 的 意义 出 发 ， 构 造 出 一 个 单独 的 组 合 
性 的 意义 表示 。 语 言 最 重要 的 任务 之 一 束 是 帮助 组 织 这 样 的 请 词 论 元 
结构 。 


谓词 论 元 结构 的 核心 是 谓词 。 动 词 、 介 词 和 一 部 分 名 词 都 可 以 做 
谓词 。 


e 动词 做 谓词 : 

我 们 来 看 下 面 的 例子 : 

1. I want Chinese food. 

2. I want to spend less than five dollars. 
3. I want it to be close by here. 

这 三 个 例子 的 句法 论 元 框架 分 别 是 : 


NP want NP 
NP want inf-VP 
NP want NP inf-VP 


这 三 个 句法 框架 分 别 说 明了 动词 want 所 要 求 的 论 元 的 数量 、 位 置 
和 句法 范畴 。 


例如 ， 第 一 个 句法 框架 说 明了 如 下 事实 : 

QD 谓词 want 有 两 个 论 元 : I 和 Chinese food; 

这 两 个 论 元 都 必须 是 NP; 

@@ 第 一 个 论 元 “TI” 处 于 动词 之 前 ， 起 主语 的 作用 ; 

第 二 个 论 元 “Chinese food” 处 于 动词 之 后 ， 起 直接 宾语 的 作用 。 


这 样 的 信息 对 于 捕捉 关于 句法 的 各 种 重要 事实 是 非常 有 价值 的 。 


除了 句法 信息 之 外 ， 我 们 还 可 以 得 到 语义 方面 的 信息 ， 如 果 我 们 
分 析 这 些 可 以 观察 到 的 显而易见 的 语义 信息 ， 我 们 还 可 以 进一步 获得 
关于 “语义 角色 ” (semantic role) 和 “语义 限制 ” (semantic restriction) 
的 信息 : 


GO 语义 角色 又 叫做 题 元 角色 (thematic role) 或 者 格 角 色 (case 
role) 。 例 如 ， 在 句子 1, 2, 3 中 ， 动 词 之 前 的 论 元 始终 起 着 want 行 为 的 
实体 的 作用 (wanter) ， 而 动词 之 后 的 论 元 则 起 着 对 want 的 内 容 的 作 
用 (wanted) 。 注 意 到 这 些 规 则 并 且 相 应 地 标注 它们 ， 我 们 就 能 够 把 
动词 的 表层 论 元 与 在 底层 语义 中 的 一 套 离 散 的 角色 联系 起 来 。 更 加 一 
般 地 说 ， 动 词 的 次 范畴 化 框架 容许 我 们 把 表层 结构 中 的 论 元 与 在 这 个 
输入 的 故 层 语义 表示 中 这 些 论 元 所 扮演 的 语义 角色 连接 起 来 

(linking) 。 把 角色 与 特定 的 动词 与 动词 的 类 别 联系 起 来 的 这 种 研 
究 ， 通 常 叫 做 “ 题 元 角色 分 析 ” (thematic role analysis) 或 者 “ 格 角色 分 


Nt” (case role analysis) ° 


(DX TUE fS EN CR S HIM, ZELMA, HDE 
一 个 在 动词 前 面 的 名 词 都 能 做 “ 想 ..….... 的 人 ”(wanter) ， 只 有 某 一 类 


的 概念 或 者 范畴 才能 够 直截了当 地 充当 “ 想 .……… 的 人 ”的 作用 。 具 体 地 
说 ， 动 词 want 限 制作 为 第 一 个 论 元 出 现 的 成 分 是 那些 能 够 在 实际 上 进 
行 want 这 样 行为 的 那些 人 。 在 传统 上 ， 这 样 的 概念 叫做 “选择 限 
fill” (selectional restriction) 。 通 过 使 用 这 种 选择 限制 ， 动 词 就 可 以 具 
体 地 说 明 对 于 它 的 论 元 的 语义 限制 是 什么 。 


e 介词 做 谓词 : 


例如 ， 在 短语 “A Chinese restaurant under fifteen dollars” (价钱 在 
15 美 元 以 下 的 中 国 饭 店 ) 中 ， 介 词 “under”* 可 以 看 成 是 具有 两 个 论 元 的 
谓词 : 第 一 个 论 元 是 Chinese restaurant， 第 二 个 论 元 是 fifteen dollars, 
第 一 个 论 元 与 第 二 个 论 元 处 于 一 种 “under” 的 关系 之 中 。 可 以 表示 如 
iss 


Under (ChineseRestaurant, $15) 
e 名 词 做 谓词 : 


例如 ， 在 句子 “Make a reservation for this evening for a table for two 
persons at 8:00.”( 给 两 个 人 预订 一 个 今 晚 8:00 的 餐 位 ) "P, RERA 
子 中 的 主要 动词 是 “make”， 但 是 它 的 谓词 却 应 该 是 名 词 “reservation”， 
可 以 表示 如 下 : 


Reservation (Hearer, Today, 8PM, 2) 
上 面 的 讨论 清楚 地 说 明 ， 任 何 有 用 的 意义 表示 方法 必须 能 够 文 持 


语义 的 谓词 论 元 结构 的 特征 。 具 体 地 说 ， 它 必须 文 持 语言 所 表示 的 语 
义 信息 。 


下 面 ， 我 们 进一步 介绍 第 一 种 意义 的 形式 化 表示 方法 : 一 阶 谓词 
演算 表示 法 。 


第 二 太一 阶 谓 词 演算 


一 阶 谓词 演算 (First Order Predicate Calculus ， 人 简称 FOPC) 是 一 
种 灵活 方便 的 、 容 易 理 解 的 、 在 计算 上 可 循 的 方法 ， 这 种 方法 可 以 表 
示 的 知识 能 够 满足 我 们 在 前 面 提出 的 对 于 语言 意义 表示 提出 的 那些 要 
求 。 具 体 地 说 ， 一 阶 谓词 演 算 可 以 为 语言 意义 表示 的 可 能 性 验证 、 推 
论 和 表达 能 力 等 方面 提供 坚实 的 计算 基础 。FOPC 最 引 人 注 目的 特征 
是 : 它 对 于 所 表示 的 事物 只 做 很 少 的 说 明 ，FOPC 所 做 的 说 明 是 相当 容 
易 理 解 的 ;， 它 所 表达 的 世界 包括 客体 、 客 体 的 性 质 以 及 客体 之 间 的 关 
系 o 


在 这 一 节 中 ， 我 们 首先 介绍 FOPC 的 基本 句法 和 语义 ， 然 后 描述 
FOPC 的 应 用 ， 并 讨论 FOPC 之 间 的 连接 。 


1. FOPC 的 基本 人 句法 


我 们 可 以 使 用 上 下 文 无 关 语法 (CFG) 的 规则 形式 来 递归 地 描写 
FOPC 的 句法 : 


Formula-AtomicFormula 


| Formula Connective Formula 


| Quatifier Variable ... Formula 
| 1Formula 
| (Formula) 
AtomicFormula-Predicate (Term ...) 
Term-Function (Term ...) 
| Constant 
| Variable 


Connective-A | v |> 
Quantifier-V (for all) | 3 (there exists) 


Constant-A 


| VegetarianFood 


| Sanchon 


Variable-x | y | 


Function-Locationof 


| CuisineOf 


从 这 些 描述 中 可 以 看 出 ，FOPC 的 原子 公式 (Atomic Formula) 的 
形式 是 : 


AtomicFormula— Predicate (Term ...) 
其 中 ，Predicate 是 谓词 ，Term 是 “项 ”。 


FOPC 的 项 有 三 种 类 型 : 常量 (constant , Kt (function) 和 变 


量 (variable) 。 


FOPC 中 的 常量 (constant) 引用 所 描述 的 世界 中 的 特定 的 客体 。 

按照 惯例 ， 常 量 通 常用 一 个 单独 的 大 写字 母 来 描述 ， 如 A 和 B 等 等 ， 
可 以 用 一 个 单独 的 大 写 的 单词 来 描述 ， 例 如 ， 本 书 作者 2004 年 在 韩国 
科学 技术 院 (Korea Advanced Institute of Science and Technology, {af 
KAIST) 电子 工程 与 计算 机 系 (Electronic Engineering and Computer 
Science department， 简 称 EECS) 教书 ,，“KAIST”* 是 我 们 所 描述 的 世界 
中 的 一 个 特定 的 客体 ， 全 部 字母 都 大 写 ， 我 们 可 以 把 它 看 成 一 个 常 
E; KAIST 附 近 有 一 个 素食 瞩 店 叫做 *Sanchon”， 这 是 一 个 专 有 名 词 ， 
第 一 个 字母 已 经 大 写 ， 也 可 以 看 成 一 个 常量 ;， 素食 饭店 出 售 素食 

( vegetarian food) ， 我 们 可 以 把 vegetarian 和 food 连 起 来 写 
成 “VegetarianFood”， 这 样 ，VegetarianFood 也 束 可 以 看 出 一 个 常量 。 
正如 程序 设计 语言 中 的 常量 一 样 ，FOPC 的 常量 只 严格 地 引用 一 个 客 
体 。 当 存在 者 干 个 客体 时 ， 可 以 用 多 个 常量 来 引用 它们 。 


FOPC 中 的 函数 (function) 相当 于 在 英语 中 经 常 表示 为 所 属 格 
(genitive) 的 概念 ùM location of Sanchon 或 Sanchon's location 


(Sanchon 的 位 置 ) 。 这 样 的 表达 式 翻译 成 FOPC 可 表示 如 下 : 


LocationOf (Sanchon) 


FOPC 函 数 在 句法 上 相当 于 包含 一 个 单独 论 元 的 谓词 。 不 过 ， 重 要 
的 是 我 们 应 该 记 住 ， 它 们 在 外 表 上 像 谓 词 ， 在 事实 上 却 只 涉及 到 一 个 
单独 客体 的 “项 ”。FOPC 的 函数 为 引用 特定 的 客体 提供 了 一 种 方便 的 途 
径 ， 使 用 函数 来 引用 客体 时 ， 用 不 着 与 命名 它 的 营 量 相 联系 。 当 存在 
着 像 饭 馆 这 样 的 很 多 命名 客体 时 ， 如 果 使 用 函数 ， 我 们 只 需要 一 个 像 
location 这 样 的 函数 ， 残 可 以 同 各 种 名 字 的 饭 包 联系 起 来 ， 是 非常 方便 
的 。 


同样 地 ，CuisineOf 也 是 一 个 函数 ， 表 示 “ 薪 看 ”， 例 如 ，cuisine of 
Sanchon 或 Sanchon's cuisine (Sanchon 的 菜肴 ) ， 用 FOPC 表 示 如 下 : 


CuisineOf (Sanchon) 


在 FOPC 引 用 客体 的 机 制 中 的 最 后 一 个 概念 是 变量 (variable) 
变量 一 般 用 单个 的 小 写字 母 表示 ， 如 x,，y。 变量 使 我 们 能 够 对 于 客体 
做 出 判断 ， 进 行 推论 ， 而 不 必 参 照 任 何 特定 的 命名 客体 。 变 量 的 这 种 
对 没有 名 字 的 客体 进行 说 明 的 能 力 有 两 个 特色 : 一 是 能 够 对 于 未 知 的 
匿名 客体 进行 说 明 ， 二 是 能 够 对 于 在 某 个 任意 的 客体 世界 中 的 一 切 客 
体 进 行 说 明 。 


Connective 是 逻辑 连 毛 词 。“A” 表 示 合 取 ,“V” 表 示 析 取 ,“=” 表 示 
强 削 。Formula 之 间 ， 可 以 用 连接 词 进行 连接 。 


Quantifier 是 逻辑 量词 。V (forall) 是 全 称 量词 ，3 (there exists) 
是 特 称 量词 。 量 词 使 用 于 变量 的 前 面 ， 对 于 变量 进行 限制 。 


前 面 我 们 对 于 FOPC 的 句法 做 了 初步 的 解释 ， 我 们 知道 了 引用 客体 
的 方法 ， 这 样 ， 我 们 残 可 以 研究 如 何 用 FOPC 来 说 明 在 客体 之 间 的 关系 
I o 

从 FOPC 的 名 称 可 以 猜 到 ，FOPC 是 围绕 谓词 的 概念 组 织 起 来 的 。 
谓词 是 一 种 符号 ， 这 种 符号 用 于 引用 名 称 以 及 在 给 定 领域 内 的 一 定数 
量 的 客体 之 间 的 关系 。 


下 面 是 一 些 FOPC 公 式 的 例子 。 


例子 1.“Sanchon serves vegetarian food.”(Samchon 饭 店 供 素 食 ) 
可 以 用 FOPC 公 式 描 述 如 下 : 


Server (Sanchon, VegetarianFood) 


这 个 FOPC 公 式 中 的 谓词 是 “Server”"， 这 是 二 元 谓词 ， 它 说 明 常 
量 “Sanchon” 和 “VegetarianFood” 所 指 的 客体 之 间 存 在 的 天 系 是 : 


Sanchon 供 应 VegetarianFood 。 


例子 2. “Sanchon is a restaurant” (Sanchon 是 一 个 饭店 ) 可 以 用 
FOPC 公 式 描述 如 下 : 


Restaurant (Sanchon) 


Restaurant 是 个 一 元 谓词 ， 它 只 涉及 一 个 客体 ， 而 不 涉及 多 个 客 
体 。 这 个 FOPC 公 式 说 明 ，Sanchon 这 个 单独 的 客体 的 性 质 是 “饭店 ”。 


例子 3. “I only have five dollars and I don't have a lot of time.”( 我 只 
有 5 美元 ， 并 且 我 没有 很 多 时 间 ) 这 个 句子 很 复杂 ， 必 须 使 用 逻辑 连接 
词 把 不 同 FOPC 公 式 连 接 起 来 描述 如 下 : 


Have (Speaker, FiveDollars) A 4 Have (Speaker, LotOfTime) 


这 里 ， 和 从 号 ”表示 否定 。 第 一 个 FOPC 公 式 说 明说 话 人 
(Speaker) 只 有 5 美元 ， 第 二 个 FOPC 公 式 说 明说 话 人 没有 很 多 时 间 。 
两 个 公式 之 间 用 连接 词 “* 和 ”连接 ， 表 示 合 取 。 


由 于 上 下 文 无 关 语 法 具有 递归 特性 ， 这 种 递归 特性 使 得 我 们 有 可 
能 使 用 逻辑 连接 词 把 无 限 数目 的 逻辑 公式 连接 起 来 。 这 样 一 来 ， 我 们 
就 有 可 能 使 用 数量 有 限 的 FOPC 工 具 来 表达 数量 无 限 的 意义 。 


2. FOPC 的 语义 


在 FOPC 知 识 库 中 的 各 种 客体 、 性 质 以 及 关系 借助 于 它们 与 这 个 知 
识 库 所 模拟 的 外 部 世界 中 的 客体 、 性 质 和 关系 而 获得 它们 的 意义 。 
此 ，FOPC 的 句子 可 以 根据 它们 所 编码 的 命题 是 否 与 外 部 世界 相符 而 被 
JIKA” (True) 或 “ 假 ”(False) 的 值 。 


BAT PROT BDA BF 
“Log-house is near KAIST.” 


在 这 个 句子 中 ，Log-house 是 一 个 饭店 ，KAIST 是 韩国 科学 技术 院 
的 们 称 ， 捕 提 在 FOPC 中 这 个 例子 的 意义 包括 辨认 与 句子 中 的 各 种 语法 
成 分 相对 应 的 “项 ”和 “请 词 "， 并 构造 逻辑 公式 ， 用 以 表达 那些 反映 在 
这 个 句子 的 单词 和 句法 中 所 强 泗 的 关系。 对 于 这 个 例子 来 说 ， 通 过 这 
些 工 作 可 以 得 到 如 下 的 结 


Near (LocationOf (Log-house) ,LocationOf (KAIST) ) 


这 个 逻辑 公式 的 意义 可 以 根据 LocationOf (Log-house) 和 
LocationOf (KAIST) 两 个 项 之 间 的 关系 、 谓 词 Near、 以 及 在 它们 所 模 
拟 的 世界 中 相应 的 客体 和 关系 等 而 获得 。 具 体 地 说 ， 这 个 句子 可 以 根 
据 在 现实 世界 中 Log-house 是 不 是 真正 与 KAIST 离 得 近 而 被 指派 True 

(EE) 或 False ( 假 ) 的 值 。 当 然 ， 由 于 我 们 的 计算 机 很 少 直 接地 访问 
外 部 世界 ， 所 以 我 们 只 好 依靠 某 些 其 他 的 手段 来 决定 这 种 公式 的 真 
值 。 


我 们 可 以 采用 所 谓 “ 数 据 库 语义 学 ” (database semantics) 来 确定 我 
们 的 逻辑 公式 的 真 值 。 从 操作 性 的 角度 看 ， 对 于 原子 公式 ， 如 果 它 们 
字面 上 在 知识 库 中 表现 出 来 ， 或 者 它们 可 以 从 知识 库 中 其 他 公式 推论 
出 来 ， 我 们 就 说 这 个 原子 公式 为 真 。 对 于 包含 逻辑 连词 的 公式 ， 可 以 


把 公式 中 的 成 分 的 意义 与 它们 包含 的 逻辑 连词 的 意义 结合 起 来 ， 从 而 
解释 整个 公式 的 意义 。 


下 面 的 真 值 表 (Truth Table) 给 出 了 人 逻辑 连接 词 的 语义 : 


图 8.3 ”FOPC 的 真 值 表 


这 里 ,“+” 表 示 “True”，“- ”表示 “False”，“A” 表 示 “and”， 拉 ” 表 
示 “nof”,“V” 表 示 “or"，“ 僵 "表示 “implies”( 列 洱 ) 


3. 变量 和 量词 


在 FOPC 中 ， 变 量 有 两 种 用 法 : 一 种 用 法 是 引用 特定 的 匿名 客体 ， 
一 种 用 法 是 一 般 地 引用 在 一 个 集合 中 的 全 部 客体 。 这 两 种 用 法 都 可 以 
通过 使 用 叫做 “量词 ” (quantifiers) 的 运算 符 来 实现 。 作 为 FOPC 基 础 
的 这 两 个 量词 运算 符 ， 一 个 是 存在 量词 (existential quantifier) ， 记 为 
J, eA “there exists” (“存在 ”) ， 一 个 是 全 称 量词 (universal 
quantifier) ， 记 为 Vv， 读 为 “for all”(“ 对 于 一 切 的 ”) 


需要 使 用 存在 量词 的 变量 在 英语 中 通常 表现 为 一 个 不 确定 的 名 词 
短语 。 我 们 来 研究 下 面 的 例子 : 


例子 1. “a restaurant that serves Japanese food near KAIST” (KAIST 
附近 的 一 个 供应 日 本 食品 的 饭店 ) 


这 个 名 词 短 语 的 参照 是 具有 特定 性 质 的 某 个 匿名 客体 。 下 面 是 这 
个 短语 的 一 个 合理 的 意义 表示 : 


dx Restaurant (x) 
A Serves (x, JapaneseFood) 


A Near ( (LocationOf (x) , LocationOf (KAIST) ) 


在 这 个 表达 式 开 头 的 存在 量词 告诉 我 们 如 何在 这 个 句子 的 上 下 文 
中 解释 变量 x。 大 至 上 说 ， 应 该 至 少 有 一 个 客体 ， 我 们 如 果 用 它 来 符 换 
变量 x， 结 果 能 够 使 形成 的 句子 为 真 。 例 如 ， 如 条 Maru 是 在 KAIST 附 
近 的 一 个 日 本 饭馆 ， 那 么 ， 用 Maru 来 替换 x， 可 以 得 到 如 下 的 逻辑 公 


dx Restaurant (Maru) 
A Serves (Maru, JapaneseFood) 
A Near ( (LocationOf (Maru) , LocationOf 


(KAIST) ) 


例子 2.“All vegetarian restaurants serve vegetarian food.”( 所 有 的 素 
食 饭 迄 都 供应 素食 ) 


这 个 句子 的 FOPC 公 式 如 下 : 
V x VegetarianRestaurant (x) = Serves (x, VegetarianFood) 


WOR BATA ROY 2 RR PRE Ex, PA OE ER A DS ÍSHIH 
应 的 句子 为 真 ， 则 这 个 句子 为 真 。 


我 们 可 以 把 所 有 可 能 的 奉 换 分 为 两 种 情况 ， 一 种 情况 是 殖 换 的 容 
(GER RIVE, FPR ie RNAS ER RIE ° 


e FAIRER IE: 


VegetarianRestaurant ( Sanchon ) = Serves ( Sachon, 


VegetarianFood) 


i^^ FOPCA xh — AAA, E A Bi $e æ “VegetarianRestaurant 

(Sanchon) ”|“Sanchon 是 一 个 素食 饭馆 ”| ， 替 换 之 后 得 到 的 结论 
是 “Serves (Sanchon, VegetarianFood) ”|[“Sanchon 供 应 素食 ”| 。 根 据 
真 值 表 ， 如 有 果 P 为 真 ，Q 也 为 真 ， 则 P=3Q 必 定 为 真 。 在 我 们 的 FOPC 公 
式 中 ， 前 提 和 结论 都 为 真 ， 所 以 ， 整 个 的 缠 泗 式 也 为 真 。 


e FRNA AREA EINE ° 
VegetarianRestaurant (Maru) = Serves (Maru, VegetarianFood) 


我 们 在 前 面 说 过 ，Maru 是 一 个 日 本 饭馆 ， 它 不 是 一 个 素食 饭馆 ， 
可 见 ， 在 这 个 FOPC 公 式 中 ， 前 提 P“VegetarianRestaurant (Maru) ”为 
假 ， 这 时 ， 不 管 结论 Q“Serves (Maru, VegetarianFood) ”是 真 还 是 假 ， 
Z W N PSQ” AENA o MA, TREES. Rila A dm 
式 “VegetarianRestaurant (Maru) = Serves (Maru, VegetarianFood) ”总 


在 上 面 的 FOPC 公 式 中 ， 我 们 使 用 了 存在 量词 (3) 或 全 称 量 词 
(V) 。 对 于 满足 存在 量词 的 变量 ， 必 须 至 少 存在 一 个 替换 使 结果 为 
真 ， 句 子 才 可 以 为 真 。 对 于 满足 全 称 量词 的 变量 ， 必 须 所 有 的 奉 换 都 
使 结 采 为 真 ， 句 子 才 可 以 为 真 。 


4. FOPC 中 的 推理 


在 FOPC 中 ， 推 理 (inference) 能 够 给 知识 库 增 加 可 靠 的 新 命题 ， 
或 者 能 够 确定 那些 不 是 明确 地 包含 在 知识 库 中 的 命题 的 真 值 。 


FOPC 中 最 重要 的 一 种 推理 是 “ 取 式 推理 ”(modus ponens) ° “Ht 
式 推理 ”是 关于 前 提 和 结论 关系 的 推理 ， 也 就 是 “if-then 推 理 *"， 定 义 如 
下 : 


uU co B. 
p 
这 里 ，a 和 B 都 是 FOPC 公 式 。 


例如 ， 


VegetarianRestaurant ( Sanchon ) 


VegetarianRestaurant ( x ) => Serves (x, VegetarianFood ) 


Serves ( Sanchon, VegetarianFood ) 


在 这 个 取 式 推理 中 ， 公 式 “VegetarianRestaurant (Sanchon) ”是 前 
fe, WHER SUPER, RTA UGH 5 ie: “Serves (Sanchon, 
VegetarianFood) ”。 这 样 ， 我 们 就 从 “Sanchon 是 素食 饭馆 ”的 前 提 推 理 
H “Sanchon MRR” HEW 。 


在 实际 上 ， 我 们 可 以 从 两 方面 来 使 用 取 式 推理 : 目前 向 后 链接 
(forward chaining) 和 上 自 后 同 前 链接 (backward chaining) ° 


一 一 自前 问 后 链接 : 使 用 自前 问 后 链接 方法 ， 当 一 个 单独 的 事实 
加 到 知识 库 中 的 时 候 ， 取 式 推 理 用 这 种 事实 来 激发 所 有 可 应 用 的 缠 涵 
规则 ， 使 得 每 当 一 个 新 的 事实 被 加 a 到 知识 库 中 ， 就 可 以 找到 并 应 用 所 
有 可 应 用 的 强 泗 规则， 这 样 ， 每 一 个 结论 都 把 新 的 事实 加 到 知识 库 
中 ， 依 次 使 用 知识 库 中 这 些 新 的 事实 去 激发 那些 可 以 应 用 于 它们 的 强 
泗 规 则 ， 这 个 过 程 继续 进行 到 没有 新 的 事实 可 以 被 推导 出 来 为 止 。 目 
前 同 后 链接 方法 的 优点 是 ， 当 需要 的 上 时候， 有 关 的 事实 必须 在 知识 库 
中 表现 出 来 ， 因 为 在 癌 前 链接 中 ， 所 有 的 推论 都 必须 事先 进行 ， 这 样 
残 可 以 充分 地 减少 回答 下 一 个 问题 所 需要 的 时 间 ， 因 为 这 时 只 需要 进 
行 简单 的 查询 职 可 以 了 。 目前 回 后 链接 方法 的 缺点 是 : 在 推理 过 程 中 
所 引用 或 存储 的 事实 可 能 是 以 后 永远 用 不 上 的 。 产 生 式 系统 
(production system) 大 量 地 使 用 认 知 模型 的 研究 成 果 ， 通 过 增加 控制 
知识 的 方法 来 决定 所 要 激发 的 规则 ， 从 而 减少 了 那些 永远 用 不 上 的 事 
实 ， 提 高 了 目前 向 后 链接 方法 的 效率 。 


一 一 目 后 向 前 链接 : 在 目 后 向 前 链接 中 ， 取 式 推 理 按 相反 的 方向 
目 后 同 前 地 进行 ， 调 用 提问 来 证 明 特 定 的 命题 ， 可 以 分 两 步 进 行 。 


(第 一 步 : 根据 提问 是 否 存储 在 知识 库 中 来 判定 提问 公式 是 否 为 
真 。 如 末 提 问 不 在 知识 库 中 ， 那 么 ， 就 较 入 第 二 步 。 


DBF: 第 二 步 搜索 在 知识 库 中 有 没有 可 应 用 的 强 涵 规 则 。 如 
果 某 一 条 规则 的 结论 部 分 与 提问 公式 相 匹配 ， 那 么 ， 这 条 规则 丈 是 可 
应 用 的 规则 ;， 如 采 存 在 着 任何 的 这 样 的 规则 ， 那 么 ， 提 问 就 被 证 明 
了 。 如 果 把 前 提 作 为 一 个 新 的 提问 ， 那 么 ， 我 们 或 可 以 递归 地 进行 目 
后 问 前 的 链接 。 


例如 ， 如 果 我 们 的 提问 是 “Does Sanchon serve the vegetarian 
food?" (Sanchon 人 饭馆 是 不 是 供应 素食 ) ， 也 就 是 说 ， 我 们 想 要 证 实 下 
面 的 命题 : 


“Serves (Sanchon, VegetarianFood) 


由 于 这 个 命题 在 我 们 的 知识 库 中 不 存在 ， 我 们 需要 按 自 后 向 前 链 
接 的 方法 使 用 取 式 推理 ， 用 “Sanchon” 来 蔡 换 取 式 推理 前 提 中 的 变量 
x， 从 而 来 查询 取 式 推理 中 的 前 提 “VegetarianRestaurant (Sanchon) ”的 
真实 性 ， 由 于 这 个 事实 在 我 们 的 知识 库 中 是 存在 的 ， 因 此 ， 我 们 可 以 
证 明 “Serves (Sanchon, VegetarianFood) ”为 真 。 


这 种 目 后 癌 前 推理 的 方法 是 从 已 知 的 结论 推出 未 知 的 前 所。 如 采 
结论 被 认为 是 正确 的 ， 那 么 ， 我 们 融 假 定 前 提 也 是 正确 的 。 


然而 ， 实 际 上 并 非 如 此 。 例 如 ， 如 果 我 们 知道 “Serves (Maru, 
VegetarianFood) ”， 也 就 是 “Maru 饭 迄 供 应 素食 ”， 这 个 事实 与 我 们 规 
则 中 的 结论 是 匹配 的 ， 使 用 目 后 向 前 的 推理 ， 我 们 可 以 得 
出 “VegetarianRestaurant (Maru) ”， 也 就 是 说 , “Maru 是 素食 饭馆 ”。 
但 是 我 们 知道 ，Maru 是 一 个 日 本 饭馆 ， 它 除了 供应 素食 之 外 ， 也 可 能 
供应 肉食 。 因 此 , “VegetarianRestaurant (Maru) ”为 假 。 


可 见 ， 目 后 辣 前 推理 的 方法 是 一 种 不 可 靠 的 推理 。 尽 管 这 种 不 可 
靠 推理 具有 推出 大 量 推论 的 能 力 ， 但 是 它 也 会 导致 一 些 似 征 而 非 的 解 
释 和 错误 的 理解 。 


这 类 推理 又 叫做 * 漳 因 推理 ”(abduction) 。 漳 因 推 理 的 中 心 规则 


E 
KE: 


a >ß 


测 因 推理 是 目 后 癌 前 从 结果 中 找 可 能 的 原因 。 对 于 我 们 刚才 的 例 
子 ， 漳 因 推理 的 过 程 是 : 


" VegetarianRestaurant ( Maru )” =“ Serves ( Maru, VegetarianFood )” , 


“Serves ( Maru, VegetarianFood )” , 


" VegetarianRestaurant ( Maru )” 
显然 ， 这 可 能 是 一 个 不 正确 的 推理 ， 因 为 作为 日 本 饭 包 的 Maru 也 
可 能 供应 肉食 ， 这 样 ，Maru 就 不 是 一 个 素食 饭馆 了 。 


一 般 而 言 ， 一 个 给 定 的 结 采 B 可 能 有 许多 光 在 的 原因 ai。 我们 从 一 
个 事实 所 要 的 并 不 仅仅 是 对 它 的 一 个 可 能 的 解释 ， 通 闻 我 们 需要 对 筷 
的 最 佳 解释 。 为 了 实现 这 个 目的 ， 我 们 需要 比较 可 选择 的 漳 因 推理 的 
品质 。 这 里 可 采用 各 式 各 样 的 策略 。 一 种 可 能 是 采用 概率 模型 ， 不 
过 ， 使 用 这 种 策略 在 选择 计算 概率 的 正确 空间 和 缺少 事件 语料库 时 获 
取 这 些 概率 的 方法 等 方面 会 出 现 一 些 问 题 。 男 一 种 方法 是 利用 纯粹 的 
局 发 式 策 略 ， 比 如 优先 选择 假设 数目 最 少 的 解释 ， 或 选择 采用 最 具体 
输入 特征 的 解释 。 尽 管 这 类 局 发 式 策略 实现 起 来 非常 容易 ， 但 是 稼 角 
过 于 脆弱 ， 功 能 也 很 有 限 。 最 后 ， 也 可 以 采用 更 全 面 的 基于 代价 

(cost-based) 策略 ， 这 种 策略 把 概率 特征 〈 既 包括 正 值 也 包括 负 值 ) 

和 局 发 式 方法 结合 起 来 。 


5. 某 些 与 语言 学 相关 的 概念 


(1) 语义 范畴 


具有 谓词 语义 的 单词 ， 它 们 的 论 元 经 常 以 选择 限制 形式 表现 出 优 
先 性 。 这 些 选 择 限 制 的 典型 表示 是 采用 基于 语义 的 范畴 ， 这 种 范畴 “ 语 
X GE" (semantic categories) ， 其 中 一 个 语义 范畴 的 所 有 成 员 共 享 一 
套 相 关 的 特征 。 


表示 语义 范 胃 的 方法 有 两 种 : 


一 一 一 元 谓词 方法 : 表示 语义 范畴 的 最 普通 的 方法 是 为 每 一 个 苑 
旺 造 出 一 个 一 元 谓词 。 这 样 的 谓词 可 以 对 每 一 个 有 关 的 语义 范 胃 进行 
说 明 。 例 如 ， 在 关于 饭馆 的 讨论 中 ， 我 们 就 可 以 使 用 如 下 的 一 元 请 词 


VegetarianRestaurant: 


VegetarianRestaurant (Sanchon) 


对 于 每 一 个 已 知 的 素食 饭馆 ， 在 我 们 的 知识 库 中 都 有 一 个 相似 逻 
辑 公式 。 


可 惜 的 是 ， 在 这 个 方法 中 ， 语 义 范畴 表示 的 是 关系 ， 而 不 是 实 实 
在 在 的 客体 。 因 此 ， 这 只 能 对 于 构成 这 个 关系 的 各 个 成 分 有 所 说 明 ， 
而 很 难 对 于 语义 范畴 本 身 有 所 说 明 。 例 如 ， 我 们 如 果 想 把 一 个 给 定语 
义 范畴 的 “最 普通 的 成 员 ” 表 示 如 下 : 


MostPopular (Sanchon, VegetarianRestaurant) 


可 惜 这 不 是 一 个 合格 的 FOPC 人 公式， 因为 在 FOPC 中 的 谓词 必须 
是 “项 *”， 而 不 能 是 其 他 的 谓词 。 但 是 在 这 个 语义 范畴 表示 中 ， 
VegetarianRestaurant 是 一 个 谓词 ， 违 反 了 FOPC 公 式 的 规定 。 


一 个别 化 方法 : 解决 这 个 问题 的 一 个 办 法 是 使 用 一 种 叫做 “个 别 
化 ” (reification) 的 技术 把 我 们 想 表 述 的 所 有 概念 都 表示 为 实 实在 在 
的 客体 。 人 例如， 我们 束 可 以 把 VegetarianRestaurant 这 个 范畴 表示 为 像 
Sanchon 这 样 的 实在 客体 。 这 样 一 来 ， 所 属性 概念 这 样 的 语义 范畴 丈 可 
以 通过 所 属性 关系 表示 如 下 : 


ISA (Sanchon, VegetarianRestautant) 


这 个 记 为 ISA (isa) 的 关系 在 客体 和 以 客体 为 成 员 的 语义 范畴 之 
间 是 成 立 的 ， 它 表示 Sanchon 这 个 客体 是 语义 范畴 VegetarianRestaurant 
的 一 个 成 员 。 


这 样 的 技术 也 可 以 通过 使 用 其 他 相似 关系 的 办 法 加 以 扩充 ， 使 它 
能 表达 范畴 的 层次 。 例 如 ， 


AKO (VegetarianRestaurant, Restaurant) 


这 里 ， 关 系 AKO (a kind of) 在 语义 范畴 之 间 成 立 ， 说 明 语 义 范 畴 的 
包含 关系 ， 它 表示 VegetarianRestaurant 这 个 语义 范畴 是 包含 在 
Restaurant 这 个 语义 范畴 之 中 的 。 当 然 ， 为 了 真正 地 给 出 这 些 谓词 的 意 
义 ， 束 应 该 把 语义 范畴 定义 为 集合 ， 并 把 这 些 谓词 放 到 更 大 的 集合 
去 o 


(2) 事件 


我 们 使 用 事件 (events) 来 表示 包括 一 个 单独 的 谓词 以 及 与 给 定 
的 例子 相 联 系 的 角色 所 需要 的 多 个 论 元 。 例 如 ,，“Make a reservation for 


this evening for a table for two persons at 8 in Log-house Restaurant.” 这 个 


事件 的 表示 包括 一 个 单独 的 谓词 Reservation 以 及 听话 人 在 预定 时 所 需 
要 的 论 元 ， 如 饭馆 名 称 、 日 期 时间 、 参 加 入 数 等 ， 如 下 所 示 : 


Reservation (Hearer, Log-house, Today, 8PM, 2) 


AR em, TAT RE, FeAl BIS 
BA iX nite E AI YE E H PeR I RATE 702 B eH IR] 
的 。 


下 面 ， 我 们 来 集中 地 研究 与 动词 eat 有 关 的 下 面 的 例子 : 
DI ate. 

QI ate a sandwich. 

(JI ate a sandwich at my desk. 

@I ate at my desk. 

GI ate lunch. 

©I ate a sandwich for lunch. 


(D I ate a sandwich for lunch at my desk. 


显而易见 ， 在 这 些 例子 中 ， 如 像 动词 eat 这 样 的 谓词 的 论 元 数目 是 
可 变 的 ， 这 殊 给 我 们 提出 了 一 个 非常 束 手 的 问题 。 


下 面 我 们 来 研究 解决 这 个 环 手 问题 的 一 些 可 能 的 方法 。 


一 一 建立 次 范畴 化 框架 为 动词 所 容许 的 每 一 种 论 元 的 格式 建立 
一 个 次 范畴 化 框架 ， 把 eating 分 别 设立 为 不 同 的 谓词 ， 用 来 处 理 动词 
eat 的 各 种 可 能 的 行为 方式 。 用 这 样 的 方法 可 以 把 上 面 7 个 例子 表示 如 
T: 


Eating, (Speaker) 


Eating; (Speaker, Sandwich) 


Eating (Speaker, Sandwich, Desk) 


Eating; (Speaker, Lunch) 


Speaker, Sandwich, Lunch) 


( 
( 
( 

Eating, (Speaker, Desk) 
( 
Eatingg ( 
( 


Eating; (Speaker, Sandwich, Lunch, Desk) 


在 为 每 一 个 次 范畴 化 框架 建立 不 同 的 谓词 的 时 候 ， 这 种 方法 巧妙 
地 回避 了 谓词 Eating 究 范 有 多 少 个 论 元 的 问题 。 可 惜 的 是 ， 这 种 方法 
的 代价 太 高 了 。 因 为 在 这 些 事件 之 间 在 逻辑 上 存在 着 明显 的 关系 ， 而 
这 种 方法 并 不 能 给 我 们 提供 任何 的 关于 事件 之 间 的 这 种 关系 。 具 体 地 
说 ， 如 果 例 子 中 为 真 ， 则 其 他 的 例子 也 为 真 。 类 似 地 ， 如 果 例 子 ® 为 
真 ， 则 例子 上 D、 避 和 (也 为 真 。 但 是 ， 这 样 的 逻辑 联系 不 能 根据 这 些 
谓词 单独 地 做 出 来 。 


一 一 建立 意义 假设 : 解决 这 些 问题 的 男 一 个 办 法 是 使 用 所 谓 的 “ 意 
义 假设 ”(meaning postulates) 。 我 们 来 研究 下 面 关 于 意义 假设 的 例 
T: 


Vw, x, y, Z Eating; (w, X, y, z) 一 Eatingg (w, X, y) 


这 个 意义 假设 把 我 们 谓词 Eatingy 和 Eatinge 中 的 语义 联系 在 一 起 
了 。 建 立 其 他 的 意义 假设 可 以 用 来 处 理 不 同 的 Eating 的 其 他 逻辑 关 
系 ， 并 且 把 它们 与 相关 的 观念 联系 起 来 。 


尽管 这 个 方法 在 小 的 领域 中 还 行 得 通 ， 但 是 ， 还 明显 地 存在 “规模 
设 定性 ” (scalability) 问题 。 更 加 敏感 的 办 法 说 ， 从 例子 DD 到 例子 全 
都 涉及 同样 的 谓词 ， 只 是 某 些 论 元 在 表层 形式 中 消失 了 。 使 用 这 种 方 
法 的 时 候 ， 很 多 的 论 元 都 被 包含 在 谓词 的 定义 中 ， 就 像 它们 在 输入 中 
出 现时 那样 。 例 如 ， 如 像 Eatingy 这 样 的 给 我 们 的 谓词 是 含有 4 个 论 元 
的 ， 它 们 是 ， 吃 的 人 、 吃 的 东西 、 吃 的 哪 一 顿 饭 、 吃 的 地 点 。 下 面 的 
公式 表现 了 我 们 例子 的 语义 ; 


Jw, x, y Eating (Speaker, w, x, y) 

Jw, x Eating (Speaker, Sandwich, w, x) 
Jw Eating (Speaker, Sandwich, w, Desk) 
dw, x Eating (Speaker, x, w, Desk) 

Jw, x Eating (Speaker, w, Lunch, x) 

Jw Eating (Speaker, Sandwich, Lunch, w) 
JEating (Speaker, Sandwich, Lunch, Desk) 


这 个 方法 直接 表示 出 这 些 公式 之 间 的 逻辑 联系 。 具 体 地 说 ， 所 有 
市 有 论 元 项 的 句子 在 逻辑 上 都 包含 了 公式 的 真 值 ， 而 这 些 公式 是 以 存 
在 量词 的 约束 变量 作为 论 元 的 。 


可 惜 的 是 ， 这 种 方法 至 少 有 两 个 明显 的 不 足 : 
第 一 ， 这 种 方法 的 负担 太 重 ; 


第 二 ， 这 种 方法 使 我 们 不 能 把 事件 个 性 化 。 


为 了 说 明 这 种 方法 为 什么 负担 过 重 ， 我 们 来 研究 例子 到 (中 关 
T for lunch 这 个 补 语 的 处 理 方 式 ， 这 种 方法 把 for lunch 作 为 第 三 个 论 
元 ， 即 “ 吃 的 哪 一 顿 白 ”， 加 到 谓词 Eating 中 。 这 样 的 表示 方法 使 得 我 们 
对 于 任何 的 Eating 事 件 都 必须 和 “ 吃 的 哪 一 顿 饭 ?联系 起 来 ， 也 束 是 说 ， 
凡是 Eating 事 件 ， 都 必须 说 明 这 是 中 钱 、 午 饭 还 是 晚饭 。 更 加 具体 地 
说 ， 在 上 面 的 例子 中 ， 关 于 吃饭 (Eating) 的 论 元 的 存在 量词 变量 必 
须 在 形式 上 都 和 * 吃 的 哪 一 顿 饭 ?联系 起 来 。 这 种 做 法 显然 是 电 春 的 ， 
因为 人 们 在 吃 东 西 的 时 候 ， 不 一 定 都 要 说 明 这 是 哪 一 顿 饭 ， 因 为 人 们 
也 可 以 在 早饭 、 中 饭 和 晚饭 的 时 间 之 外 进食 。 


为 了 看 出 这 种 方法 不 适合 于 处 理 个 性 化 的 事件 ， 我 们 来 研究 下 面 


dw, x Eating (Speaker, x, w, Desk) 
Jw, x Eating (Speaker, w, Lunch, x) 
Jw Eating (Speaker, w, Lunch, Desk) 


WAR Be ADE RU AS 2s ee AY TR] — SEE, ABA, BRT DAE 
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式 ， 我 们 不 能 说 出 这 样 做 是 否 有 可 能 。I ate at my desk 和 Iate lunch 这 
两 个 独立 的 事实 不 容许 我 们 得 出 I ate lunch at my desk 的 结论 。 显 而 易 
见 ， 我 们 还 没有 引用 I ate lunch at my desk 这 个 事件 的 办 法 。 


一 一 事件 个 别 化 描述 ， 我 们 可 以 使 用 语义 范畴 来 解决 这 个 问题 ， 
这 时 ， 我 们 应 用 “个 别 化 ” (reification) 的 办 法 来 加 强 对 于 事件 的 描 


述 ， 使 得 事件 成 为 能 够 量词 化 的 客体 ， 并 且 能 够 通过 定义 好 的 天 系 与 
其 他 的 客体 联系 起 来 。 使 用 这 样 的 方法 ， 我 们 来 研究 例子 已 的 表示 。 
dw ISA (w, Eating) 


A Eater (w, Speaker) A Eaten (w, Sandwich) 


这 样 的 表示 其 意思 是 : FER MAMAS, EH, Speakerzé 
吃饭 这 个 事件 的 行为 者 ，Sandwich 是 被 吃 的 东西 。 同 相似 的 方法 ， 我 
们 可 以 作出 例子 由 和 人 @@) 的 意义 表示 来 : 


dw ISA (w, Eating) A Eater (w, Speaker) 
Jw ISA (w, Eating) 
A Eater (w, Speaker) A Eaten (w, Sandwich) 


^ MealEaten (w, Lunch) 


这 种 事件 个 别 化 (reified-event) 的 方法 有 如 下 特点 : 


。 对 于 一 个 给 定 的 表层 谓词 ， 不 需要 说 明 量词 的 确定 数目 ， 在 输 
入 中 出 现 多 少 角色 和 填充 项 都 可 以 胶合 到 表层 谓词 中 来 。 


e 只 要 在 输入 中 提 到 角色 ， 不 需要 再 对 角色 进行 意义 假设 。 


e 在 有 和 密切 联系 的 例子 之 间 ， 只 要 使 用 逻辑 连接 词 束 可 以 满足 把 
它们 连接 起 来 的 要 求 ， 不 再 需 要 意义 假设 。 


(3) 时 间 的 形式 表示 


时 间 逻 辑 (temporal logic) 和 时 态 逻 辑 (tense logic) 从 语义 的 角 
度 对 时 间 进 行 形式 化 的 表示 。 关 于 时 间 的 最 简单 的 理论 认为 ， 时 间 有 是 
一 直 疝 前 地 流动 的 ， 事 件 与 时 间 线 (timeline) 上 的 一 个 点 或 者 一 个 片 


段 相 联系 。 根 据 这 样 的 概念 ， 可 以 把 不 同 的 事件 放 在 这 个 时 间 线 上 ， 
从 而 形成 事件 的 顺序 。 如 有 果 时 间 流 把 第 一 个 事件 引导 到 第 二 个 事件 ， 
我 们 就 说 第 一 个 事件 先 于 (precedes) 第 二 个 事件 。 在 大 多 数 关 于 时 间 
的 理论 中 ， 还 有 在 时 间 中 的 当前 时 刻 的 概念 。 把 这 些 概念 与 时 间 顺 序 
的 概念 结合 起 来 ， 就 产生 了 我 们 所 熟知 的 关于 现在 、 过 去 和 将 来 的 概 
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例如 ， 


I arrived in Seoul. 
I am arriving in Seoul. 


I will arrive in Seoul. 


如 条 不 考虑 时 间 方 面 的 信息 ， 这 3 个 句子 都 可 以 表示 为 如 下 的 FOPC 公 
x: 


J w ISA (w, Arriving) 


A Arriver (w, Speaker) A Destination (w, Seoul) 


这 个 FOPC 公 式 说 明 ， 存 在 着 一 个 Arriving 的 事件 w，w 的 到 达 者 
(Arriver) 是 说 话 人 (Speaker) ，w 的 方向 (Destination) 是 Seoul。 


不 过 ， 根 据 句子 中 动词 的 时 态 ， 我 们 还 可 以 给 上 面 的 表示 事件 的 
变量 w 增 加 关于 时 间 的 信息 。 我 们 可 以 提出 表示 事件 的 “时 间 间 
Ki” (interval) 的 变量 i， 还 可 以 提出 事件 的 时 间 终 点 ”(end of point) 
的 变量 e， 这 样 ， 对 于 上 面 得 个 句子 ， 我 们 吏 分 别 地 可 以 得 到 如 下 的 表 

A: 


IA 


J i, e, w ISA (w, Arriving) 

A Arriver (w, Speaker) A Destination (w, Seoul) 

^ IntervalOf (w, i) ^ EndPoint (i, e) A Precedes (e, 
Now) 
J i, e, w ISA (w, Arriving) 

A Arriver (w, Speaker) A Destination (w, Seoul) 

^ IntervalOf (w, i) ^ MemberOf (i, Now) 
J i, e, w ISA (w, Arriving) 

A Arriver (w, Speaker) A Destination (w, Seoul) 

A IntervalOf (w, i) A EndPoint (i, e) A Precedes 


(Now, e) 


在 这 些 表达 式 中 ， 变 量 “i 表示 相关 事件 的 时 间 间 隔 ， 变 量 “e” 表 示 
时 间 间 隔 的 终点 ， 二 元 谓词 "precedes” 表 示 第 一 个 时 间 点 论 元 前 于 第 二 
个 时 间 点 论 元 ， 常 量 “how” 表 示 当 前 上 时间。 我 们 根据 时 间 线 的 前 后 顺 
序 ， 束 可 以 摘 述 “过 去 、 将 来 和 现在 ”等 时 间 概 念 : 对 于 过 去 的 事件 ， 
时 间 间 隔 的 终点 前 于 当前 时 间 “Now”， 也 就 是 说 ， 过 去 的 事件 发 生 在 
当前 时 间 之 前 ， 表 示 为 Precedes (e, Now) ; 对 于 将 来 的 事件 ， 当 前 时 
间 “Now” 前 于 事件 的 终点 ， 也 束 是 说 ， 将 来 的 事件 发 生 在 当前 时 间 之 
后 ， 表 示 为 Precedes (Now, e) ; 对 于 现在 发 生 的 事件 ， 当 前 时 间 包 含 
在 事件 的 时 间 间 隔 之 内 ， 表 示 为 MemberOf (i, Now) ° 


为 了 表示 英语 中 的 完成 时 态 ， 雷 申 巴赫 (Reichenbach) 提出 
了 “参照 点 ” (reference point) 的 概念 。 他 把 言语 行为 中 的 时 间 分 为 发 
话 时 间 (utterance time， 记 为 U) 、 事 件 时 间 (event time， 记 为 E) 和 
参照 点 (reference point, WHR) ， 使 用 参照 点 来 描述 完成 时 态 。 


例如 ， 


When John's flight departed, I ate lunch. 
When John's flight departed, I had eaten lunch. 


简单 过 去 时 过 去 完成 时 
When John’s flight departed, I ate. When John’s flight departed, I had eaten. 
R,E U U 


E R 
图 8.4 简单 过 去 时 和 过 去 完成 时 的 表示 方法 


英语 中 还 有 现在 完成 时 (present perfect) 、 现 在 时 (present) ^ 
简单 将 来 时 (simple future) 、 将 来 完成 时 (future perfect) 。 例 如 ， 


In the time John's flight departed, I have eaten. (现在 完成 时 ) 
When John's flight departed, I eat. 〈 现 在 时 ) 

When John's flight departs, I will eat. (简单 将 来 时 ) 

When John's flight departed, I will have eaten. (将 来 完成 时 ) 


我 们 也 可 以 使 用 雷 申 巴赫 的 方法 来 表示 这 些 时 态 。 


下 面 是 用 雷 申 巴赫 的 方法 来 表示 的 各 种 英语 时 态 (例句 中 都 省 去 
了 “When John's flight departed”" 等 表示 参照 点 的 从 句 ) : 


过 去 完成 时 简单 过 去 时 现在 完成 时 
I had eaten I ate I have eaten 
E R U R,E U E R,U 
现在 时 简单 将 来 时 将 来 完成 时 
I eat I will eat I will have eaten 
U,R,E U,R E U E R 


图 8.5 ”英语 时 态 表示 法 


(4) 信念 的 形式 表示 


语言 中 有 的 单词 是 表示 人 的 信念 (believe) WY, MU, “believe, 
want, know, imagine” 等 。 这 些 单词 表示 的 信念 不 一 定 是 客观 存在 的 现 
实 ， 而 是 说 话 人 主观 的 想象 ， 是 说 话 人 上 自己 创造 的 世界 。 所 以 ， 这 些 
单词 具有 创造 世界 的 能 力 ， 当 然 ， 它 们 创造 的 世界 是 一 个 假想 的 世 
界 ， 而 不 是 现实 的 世界 。 


在 FOPC 的 公式 中 ， 这 些 表示 信念 的 单词 一 般 都 使 用 类 似 于 句子 那 
样 的 成 分 作为 论 元 。 例 如 ， 


I believe that Mary ate Japanese food. 


其 中 ，believe 是 表示 信念 的 单词 ， 它 的 论 元 是 Mary ate Japanese 
food ° 


在 这 个 句子 中 有 两 个 事件 : 一 个 事件 表示 说 话 者 具有 某 个 特殊 的 
信念 ， 记 为 Believing， 男 一 个 事件 表示 这 个 信念 的 内 容 “Mary ate 
Japanese food”， 记 为 Eating。 使 用 个 别 化 的 方法 ， 我 们 可 以 把 这 个 句 
子 的 FOPC 公 式 表 示 如 下 : 


Ju, v ISA (u, Believing) A ISA (v, Eating) 
A Believer (u, Speaker) A BelievedProp (u, v) 


A Eater (v, Mary) A Eaten (v, JapaneseFood) 


这 个 FOPC 公 式 中 有 u 和 v 两 个 变量 ，u 代 表 事 件 Believing ，v 代 表 事 
件 Eating，u 的 信念 者 (Believer) 是 说 话 人 (Speaker) ，u 的 信念 命题 
(BelievedProp) 是 v，v 的 吃饭 者 (Eater) 是 Mary ，v 的 被 吃 者 
(Eaten) 是 JapaneseFood， 这 些 信息 以 连接 词 “A” 相 互 连 接 ， 显 而 易 
见 ， 只 有 在 每 一 个 连接 项 目 都 为 真 的 时 候 ， 整 个 句子 才 为 真 ， 也 就 是 
说 ，Mary 在 事实 上 必须 真正 吃 过 日 本 食品 。 然 而 ， 整 个 句子 的 意思 只 


征 表 示 一 个 信念 ， 这 个 信念 不 一 定 吏 是 事实 。 所 以 ， 这 个 FOPC 二 有 问 
题 的 ， 征 不 能 成 立 的。 


为 了 解决 这 个 问题 ， 我 们 可 以 引入 一 个 新 的 算 子 (operator) , HH 
做 “信念 算 子 ” (Believed) ， 这 个 算 子 以 两 个 FOPC 公 式 作 为 它 的 论 
元 : 一 个 公式 描述 信念 者 ， 一 个 公式 描述 所 信念 的 命题 。 使 用 这 样 的 
信念 算 子 ， 我 们 可 以 得 到 如 下 的 FOPC 表 达 式 : 


Believes (Speaker, d v ISA (v, Eating) A Eater (v, Mary) A 


Eaten (v, JapaneseFood) ) 


在 这 个 FOPC 公 式 中 ，Believes 不 再 是 一 个 事件 ， 而 是 一 个 算 子 ， 
这 个 算 子 的 信念 者 是 说 话 人 (Speaker) ， 这 个 算 子 的 信念 内 容 就 是 说 
话 人 所 相信 的 命题 “3 vISA (v, Eating) A Eater (v, Mary) A Eaten 


(v, JapaneseFood) ” 


在 逻辑 公式 中 使 用 的 如 像 “Believes” 这 样 的 算 子 ， 叫 做 “ 
F” (modal operator) ， 使 用 这 样 的 算 子 来 加 强 的 逻辑 叫做 “ 逻 
辑 ”(modal logic) 。 在 自然 语言 处 理 中 ， 我 们 经 常 使 用 模 态 逻辑 来 进 
行 常识 (commonsense knowledge) 的 形式 化 表示 。 


BoP ”意义 的 其 他 三 种 形式 化 表 
示 方 法 的 进一步 说 明 


除了 FOPC 之 外 ， 表 示意 义 的 形式 化 方法 还 有 语义 网 络 、 概 念 依存 
图 和 框架 表示 法 三 种 。 本 市 对 这 种 三 种 表示 方法 进一步 加 以 说 明 。 


算 
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1. 语义 网 络 


由 联想 关系 构成 的 语义 场 叫做 联想 场 ， 它 反映 了 词义 与 词义 之 间 
的 动态 的 组 合 关 系 。 这 种 组 合 关系 ， 可 以 通过 语义 网 络 (semantic 
network) 来 描述 。 由 于 语义 的 内 容 就 是 概念 的 内 容 ， 因 此 ， 在 语义 网 
络 中 ， 束 直接 用 概念 来 表示 词义 。 


语义 网 络 是 1968 年 由 美国 心理 学 家 硅 尼 安 (R. Quillian) 研究 人 类 
联想 记忆 时 提出 的 。1972 年 ， 美 国人 工 智 能 专家 西蒙 斯 (R.F. 
Simmons) 和 斯 乐 康 (J. Slocum) 首先 将 语义 网 络 用 于 自然 语言 理解 
系统 中 。1977 年 ， 美 国人 工 智能 学 者 享 德里 克 斯 (G. Hendrix) 提出 了 
分 块 语义 网 络 的 思想 ， 把 语义 的 逻辑 表示 与 “ 格 语法 ” (case grammar) 
结合 起 来 ， 把 复杂 问题 分 解 为 较为 若干 个 简单 的 子 问 题 ， 每 一 个 子 问 
题 以 一 个 语义 网 络 表 示 ， 可 进行 自然 语言 理解 中 的 各 种 复杂 的 推理 ， 
把 自然 语言 理解 的 研究 向 前 大 大 推进 了 一 步 。 


语义 网 络 可 用 有 向 图 线 来 表示 。 一 个 语义 网 络 就 是 由 一 些 以 有 向 
图 线 表示 的 三 元 组 


( 结 点 1， 图 线 ， 结 点 2) 
连接 而 成 的 。 


结 点 表示 概念 ， 图 线 是 有 方 同 的 、 有 标记 的 。 在 三 元 组 中 ， 图 线 
由 结 点 1 指向 结 点 2， 结 点 1 为 主 ， 结 点 2 为 辅 ， 图 线 的 方向 体现 了 主 
次 ， 图 线 上 的 标记 表示 结 点 1 的 属性 或 结 点 1 与 结 点 2 之 间 的 关系 。 


语义 网 络 中 的 一 个 三 元 组 可 图 示 如 下 : 


R 
B 


Kg. ”三 元 组 的 表示 法 


这 样 ， 由 才干 个 三 元 组 构成 的 语义 网 络 束 可 表示 为 : 


图 8.7 语义 网 络 


从 逻辑 表示 的 方法 来 看 ， 语 义 网 络 中 的 一 个 三 元 组 相当 于 一 个 二 
元 谓词 ， 因 此 ， 三 元 组 


( 结 点 1， 图 线 ， 结 点 2) 
可 写成 二 元 谓词 
P (个 体 1， 个 体 2) 


其 中 ,个体 1 对 应 于 结 点 1， 个 体 2 对 应 于 结 点 2， 而 图 线 及 其 上 面 表示 
结 点 1 与 结 点 2 之 间 的 天 系 的 标记 由 请 词 P 来 体现 。 


这 样 一 来 ， 一 个 由 若干 个 三 元 组 构成 的 语义 网 络 束 相当 于 一 组 二 


元 谓词 。 


我 们 可 以 把 语义 网 络 看 成 一 种 知识 的 单位 。 人 脑 的 记忆 是 通过 存 
贮 大 量 的 语义 网 络 来 实现 的 。 


在 人 工 智能 中 ， 语 义 网 络 内 各 个 概念 之 间 的 关系 ， 主 要 由 ISA,， 
PART-OF, IS 等 谓词 来 表示 。 


谓词 TSA 表 示 “ 种 一 属 关 系 ”, “种 概念 ”隶属 于 “ 属 概念 ”， 因 此 ， 
ISA 是 一 种 隶属 关系 ， 它 体现 为 菏 种 层次 分 类 ， 种 概念 层 的 结 点 可 继 
承 属 概念 层 结 点 的 属性 。 谓 词 TSA 表 示 的 “种 一 属 " 关 系 也 可 以 看 成 是 一 
种 “具体 一 抽象 ?关系 ， 具 体 概念 隶属 于 某 个 抽象 概念 。 


例如 ,“ 鱼 是 一 种 动物 ”这 一 命题 可 表示 为 


ISA 


图 8.8 种 一 属 关 系 


动物 具有 “会 动 、 吃 食物 、 要 呼吸 "等 属性 ， 鱼 也 具有 “会 动 、 吃 食 
物 、 要 呼吸 ”等 属性 。 此 外 ， 鱼 还 具有 “用 鳃 呼吸 、 水 中 生活 、 有 鳍 ”等 
特殊 的 属性 ， 而 有 的 动物 束 不 具有 这 些 属性 。“ 鱼 ”是 种 概念 层 的 结 
点 , “动物 ”是 属 概 念 层 的 结 点 。 这 说 明 ， 种 概念 层 的 结 点 可 以 继承 局 
概念 层 的 结 点 的 属性 ， 反 之 不 然 ， 这 束 是 ISA 天 系 中 的 “属性 继承 规 
pIj” o 


又 如 , “FEEN A — MA DRA 


" ISA 
m 


图 8.9 ”种 一 属 关系 


人 具有"“ 能 制造 工具 、 能 使 用 工具 、 能 进行 劳动 、 高 等 动物 "等 属 
性 ， 因 此 ， 学 生 也 具有 "能 制造 工具 、 能 使 用 工具 、 能 进行 劳动 、 高 等 
动物 "等 属性 ， 此 外 ， 学 生还 具有 “在 学 校 读书 "的 特性 ， 而 其 他 的 人 不 
一 定 具 有 这 样 的 特性 。 这 一 命题 显然 也 遵循 着 ISA 关 系 中 的 “属性 继承 
规则 ”。 


谓词 PARTOF 表 示 * 整 体 一 构件 关系， 构件 包含 于 整体 之 中 ， 
此 ，PARTOF 也 是 一 种 包含 关系 。 在 PARTOF 天 系 中 ， 下 层 结 点 不 能 
继承 上 层 结 点 的 属性 ，ISA 关 系 中 的 “属性 继承 规则 ”， 在 PARTOF 关 系 
中 是 不 能 成 立 的 。 


例如 , “和 车轮 是 汽车 的 一 部 分 ”这 个 命题 ， 可 以 表示 为 : 


PART-OF i 
Z 


图 8.10 ”整体 一 构件 关系 


其 中 ,，“ 和 车 轮 ” 不 一 定 具有 “汽车 ”的 某 些 属性 。 


又 如 ,“ 墙 上 有 黑板 ”这 个 命题 ， 可 以 表示 为 : 


"T PART-OF m 


图 8.11 整体 一 构件 关系 


在 这 种 整体 一 构件 天 系 中 ， 黑 板 的 属性 与 墙 的 属性 几乎 晤 无 共同 
xus 
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例如 , “奥斯陆 是 挪威 首都 "这 个 命题 ， 可 以 表示 为 : 


图 8.12 ISKA 


又 如 ,“ 人 小 刘 聪 明 过 人 ”这 个 命题 ， 可 以 表示 为 : 


图 8.13 ISKA 


结 点 与 结 点 之 间 的 关系 是 多 种 多 样 的 。ISA, PARTOF 和 IS 只 是 三 
种 最 和 常见 的 关系 。 对 于 自然 语言 的 计算 机 处 理 来 说 ， 这 三 种 关系 是 
远 不 够 的 。 


如 上 所 述 ， 语 义 网 络 是 由 一 组 二 元 谓词 构成 的 ， 它 可 表示 一 个 事 
件 (event) 。 事 件 是 由 若干 个 概念 组 合 所 反映 的 客观 现实 ， 它 可 以 分 
为 叙述 性 事件 、 描 述 性 事件 和 表述 性 事件 3 种 。 当 用 语义 网 络 来 表述 事 
件 时 ， 语 义 网 络 中 结 点 之 间 的 关系 ， 还 可 以 有 施 事 (AGENT) 、 受 事 
(PATIENT) 、 位 置 (LOCATION) 、 时 间 (TIME) 等 。 


例如 ,，“ 张 起 帮助 王 林 ” 这 一 事件 可 以 表示 为 : 


图 8.14 事件 的 表示 


如 果 知 道 张 号 是 老师 ， 王 林 是 学 生 ， 那 么 ， 语 义 网 络 可 更 加 细致 
地 表示 如 下 : 


图 8.15 ”事件 更 细致 的 表示 


语义 网 络 系统 的 推理 机 制 一 般 基 于 网 络 的 匹配 。 根 据 提 出 的 问题 
BAB DZS, CHAAR RRR o BRIAR SW Ee E 
Ve) Fay as d 28 0 ZR ATA PRA DE RCER TE, ee VEC OD, UN Fay He ee IT 
NSE Ae”, DACA aye” ° 


例如 ， 在 语义 网 络 知识 库 中 存 贮 了 事件 “ 张 忠 帮 助 王 林 ”， 查 询 的 
目的 是 “ 张 忠 帮 助 谁 ? ”， 根 据 图 8.14 中 的 网 络 进 行 匹配 ， 结 果 匹 配 得 
到 成 功 ， 得 到 变量 的 替换 值 为 " 王 林 ”， 即 “ 堆 = 王 林 ”。 


把 语义 网 络 的 理论 和 方法 运用 于 汉语 的 目 动 处 理 ， 有 必要 根据 汉 
语 的 特点 ， 对 于 二 元 谓词 中 的 谓词 作 深入 的 研究 ， 充 分 地 揭示 汉语 中 
的 语义 关系 。 


东北 工学 院 刘 东 立 、 姚 天 顺 等 提出 了 汉语 目 动 分 析 中 的 语义 关系 
集 ， 定 义 如 下 (每 个 关系 都 用 大 写 英文 字母 串 来 表示 ， 括 号 内 注 明 其 
中 文 含义 ) : 


AGT ( 施 事 ) : 自觉 行为 的 发 出 者 ， 意 志 活 动 的 主体 ， 该 行为 和 
活动 影响 某 个 客体 。 


ATT (ETE) : 某 客 体 的 属性 ， 它 不 是 物体 而 是 物体 的 内 酒 。 
BEL (E) : 事件 中 主体 所 领 有 的 人 或 事物 。 


CAS (AF) : 影响 事件 是 否 发 生 或 发 展 的 条 件 。 
CAA (假设 条 件 ) : 一 种 假设 的 条 件 ， 用 来 表示 命题 的 必要 前 


CAU (促使 ，: 某 动作 或 状态 发 生 的 原因 或 起 因 者 。 


DAT (53) : 
DET (IRIE) : 
DST (终点 ) : 
DUR (时 段 ): 
EXP ( 当 事 ) : 
EXT ( 客 事 ) : 
LOC MA) : 


MEA (手段 ): 


MOD (修饰 ) : 
NUM (数值 ) : 
OBJ ( 受 事 ) : 


ORG (起 源 ) : 


事件 中 有 利和 益 或 损失 的 间接 客体 。 
事件 中 主体 的 限定 者 。 

事件 中 活动 所 抵达 的 终结 点 。 

事件 发 生 从 开始 到 结束 所 持续 的 时 间 段 。 
经 历 变化 、 获 知客 事 和 呈现 状 的 主体 。 
事件 中 活动 所 涉及 但 不 受 文 配 的 外 在 客体 。 
发 生动 作 或 状态 的 处 所 。 


为 达到 某 一 目的 而 采用 的 方法 、 手 段 、 或 具体 措 


某 一 动词 或 形容 词 的 修 所 。 
某 物体 的 数字 部 分 。 


事件 和 活动 中 受 文 配 或 对 竺 的 既 存 的 直接 客体 。 
事件 中 活动 的 起 点 或 变化 前 的 状态 。 


: 事件 中 令 有 关系 或 隶属 关系 的 个 体 。 


: 事物 与 数量 的 关系 。 
: 事件 中 进行 比较 或 测量 所 参照 的 间接 客体 。 
: 事件 所 涉及 的 领域 或 范围 。 


SIT (lt) : 事件 发 生 的 场合 或 处 境 。 
VAL (属性 值 ) : 属性 ATT 的 值 。 
例如 , “这 位 老师 去 北京 "这 个 句子 的 语义 网 络 是 : 


图 8.16 ”语义 网 络 


“他 因 劳 素 而 休息 了 ”这 个 句子 的 语义 网 络 如 下 : 


图 8.17 语义 网 络 


“陈景润 从 事 数 学 人 研究 ”这 个 句子 的 语义 网 络 如 下 : 


P sei] 


图 8.18 ”语义 网 络 


他 们 在 汉 英 机 器 翻译 系统 CETRAN 中 采用 了 上 壕 语 义 关 系 ， 对 于 
同一 类 关系 ， 还 可 进一步 描述 其 下 位 属性 ， 如 果 在 分 析 过 程 中 发 现 不 
够 ,只 要 系统 提供 的 存 崇 空间 允许 ， 还 可 以 由 系统 程序 员 添 加 下 位 属 
性 。 实 际 运行 表明 ， 这 一 个 复杂 的 语义 关系 集 是 行 之 有 效 的 。 


河南 财经 学 院 人 工 智能 研究 室 鲁 川 等 提出 的 语义 网 络 如 下 (每 
关系 用 汉字 表示 ， 括 号 内 注 明 其 英文 含义 ) : 


施 事 (Agen) : 发 出 可 控 活动 的 主体 。 


当 事 (Experiencer) : 非 可 控 活动 、 非 可 控 状 态 的 主体 或 目 身 变 
化 的 主体 。 


伴随 
排除 
参照 
范围 


原因 


(Essive) : 类 属 关 系 的 主体 或 比喻 关系 的 本 体 。 


(Genitive) : 领 有 关系 的 主体 或 包括 关系 的 整体 。 
(Patient) : 文 配 性 活动 所 处 置 或 控制 的 直接 客体 。 


* (Content) ， 关 涉 性 活动 所 传递 或 感受 的 客体 内 容 。 


(Product) : 创造 性 活动 所 创作 或 建造 的 新 生 客 体 。 
(Goal) : 活动 所 对 待 或 关 涉 的 间接 客体 。 
(Category) : 类 属 关 系 的 类 别 ， 类 似 或 比喻 关系 的 喻 体 。 


(Determiner) : 限定 关系 中 的 限定 者 。 
(Part) : 包括 关系 中 的 组 成 部 分 或 构成 部 分 。 
(Quantifier) : 数量 关系 中 的 物 量 。 
(Companion) : 事件 中 伴随 者 。 
(Exception) : 事件 中 的 排除 者 。 
(Reference) : 事件 中 比较 或 测量 的 参照 者 。 
(Scope) : 事件 中 所 关 涉 的 方面 或 领域 。 
(Cause) : 引起 事件 发 生 或 发 展 的 原因 。 


(Basis) : 事件 中 所 遵照 或 依靠 的 凭据 。 
(Purpose) : 事件 所 要 达到 的 目的 。 


例如 


(Effect) : 事件 所 造成 的 结局 或 效果 。 
(Manner) : 事件 中 的 态度 、 方 法 、 形 式 或 状况 。 


i (Instrument) : 事件 中 所 用 的 器 具 、 设 备 或 人 力 。 


(Materia) : 事件 中 所 消耗 的 原料 、 能 源 或 资金 。 
(Degree) : 事件 中 所 达到 的 水 平 或 状态 及 情感 的 程度 。 
(Time) : 事件 发 生 的 时 点 。 
(Period) : 事件 起 止 的 时 段 。 
(Duration) : 事件 延续 的 时 量 。 

(Frequence) : 事件 中 活动 或 变化 的 重复 及 其 次 数 。 
(Location) : 事件 发 生 的 处 境 或 场所 。 


i (Source) : 事件 中 的 起 点 、 来 源 或 原来 的 状态 。 
途 (Route) : 事件 所 经 过 的 路 途 或 过 程 。 


(Direction) : 事件 中 的 方向 、 进 程 或 终点 。 
,，“ 他 抽烟 斗 ” 这 个 句子 ， 其 语义 网 络 为 : 


图 8.19 ”语义 网 络 


“数学 小 王 考 一 百 分 ” 这 个 句子 的 语义 网 络 是 : 


图 8.20 ”语义 网 络 


“昨天 小 王 高 兴 地 唱 了 一 文 歌 ”这 个 句子 的 语义 网 络 是 : 


图 8.21 语义 网 络 


根据 汉语 复合 句 中 各 个 分 句 之 间 的 关系， 他 们 还 提出 了 如 下 的 关 
于 事件 之 间 的 关系 : 


先行 (Antecedent) : 在 时 间 上 或 事理 上 发 生 在 前 的 先行 事件 。 
后 继 (Succedent) : 在 时 间 上 接续 先行 事件 的 后 继 事件 。 


E (Progression) : 在 某 一 方面 比 先 行事 件 更 进一步 的 后 继 事 


转折 (Adverse) : 不 顺 着 先行 事件 方向 发 展 的 转折 性 事件 。 


原因 (Cause) : 造成 某 种 结果 或 导致 男 一 事件 的 引发 性 事件 。 
ZR (Result) : 由 于 某 种 结果 或 条 件 所 造成 的 结局 性 事件 。 


推断 (Inference) : 根据 某 种 原因 或 假设 而 得 出 的 推断 性 事件 。 


条 件 (Condition) : 影响 事件 进展 的 、 必 要 的 或 充分 的 前 提 性 事 
ire 


假设 (Assumption) : 为 了 对 事件 进展 有 所 推断 而 提出 的 假设 性 
事件 。 


让 步 (Concession) : 为 了 跟 转 折 性 事件 形成 对 比 而 提出 的 让 步 


手段 (Means) : 为 了 达到 某 种 目的 而 采取 的 措施 性 事件 。 


目的 (Purpose) : 通过 某 些 手段 而 要 达到 的 目标 性 事件 。 


舍弃 (Abandonment) : 为 了 选取 更 有 利 的 事件 而 舍弃 的 另 一 可 
选 性 事件 。 


选取 (Preference) : 舍弃 一 可 选 性 事件 而 选取 的 更 有 利 的 可 选 性 
5E ° 


根据 这 些 关 系 ， 可 以 建立 复合 句 的 语义 网 络 。 


例如 ,“ 足 球 队 训练 刻 百 ， 为 的 是 夺取 冠军 ”这 个 复合 句 的 语义 网 
络 如 下 : 


dm 


目的 受 事 


图 8.22 ”复合 句 的 语义 网 络 


这 样 建立 的 语义 网 络 ， 在 双语 言 或 多 语言 的 机 器 翻译 系统 中 ， 可 
以 作为 原 语 和 译 语 之 间 的 一 种 “中 介 语 言 ” (Interlingua) ， 在 机 器 翻译 
过 程 中 ， 首 先 输入 原文 的 线性 序列 ， 然 后 把 它 分 析 为 原文 的 语义 网 
络 ， 再 转换 为 译文 的 语义 网 络 ， 最 后 生成 译文 的 线性 序列 。 


2. 概念 依存 图 


1973 年 ， 尚 克 提 出 了 概念 依存 理论 (Conceptual Dependency 
Theory， 简 称 CD 理 论 ) ， 用 于 描述 自然 语言 中 短语 和 句子 的 意义 。 尚 
克 使 用 概念 依存 理论 设计 了 一 个 德 英 机 需 翻 译 系统 。 


概念 依存 理论 主张 句法 、 语 义 和 推 理 相 互 融合 的 一 体 化 

(Integrated) 处 理 模 型 ， 这 种 模型 更 接近 于 人 对 目 然 语言 理解 的 过 

程 ， 由 于 在 处 理 的 最 初 阶段 束 综 合 运 用 了 包括 语言 学 知识 和 关于 外 部 
世界 的 第 识 在 内 的 各 种 知识 ， 处 理 效率 比较 高 。 


概念 依存 理论 有 3 条 重要 的 原理 : 


第 一 ， 对 于 任何 两 个 意义 相同 的 句子 ,不管 这 两 个 句子 属于 什么 
语言 ， 在 概念 依存 理论 中 ， 它 们 的 语义 表达 式 只 有 一 个 。 


早 在 1949 年 ， 美 国 洛 克 非 勒 基金 会 的 副 总 裁 书 弗 (W. Weaver) 在 
讨论 机 器 翻译 的 时 候 束 提出 ， 当 机 器 把 语言 A 翻译 为 语言 B 的 时 候 ， 可 
以 从 语言 A 出 发 ， 通 过 一 种 中 间 语 言 (Interlingua) ， 然 后 再 转换 为 语 
言 B， 这 种 中 间 语 言 是 全 人 类 共同 的 。 疝 死 继承 了 韦 弗 的 这 种 思想 。 


第 二 ， 强 涵 在 一 个 句子 中 的 任何 为 理解 所 必须 的 信息 者 应 该 在 概 
念 依存 理论 中 得 到 显 式 的 表达 。 


这 样 的 显 式 表达 一 般 使 用 概念 依存 表达 式 。 概 念 依存 表达 式 由 数 
量 有 限 的 若干 个 语义 基 元 (semantic primitive) 组 成 ， 这 些 语义 基 元 可 
以 分 为 基本 行为 和 基本 状态 两 种 。 


基本 行为 主要 有 : 


——PTRANS: 物体 的 物理 位 置 的 转移 。 例 如 ，go (E) 就 是 行 
为 者 自己 要 进行 PTRANS， 也 就 是 PTRANS 自 身 到 某 处 ，put ( 放 ) 一 
个 物体 在 某 处 ， 就 是 为 了 把 是 一 件 物体 PTRANS 到 某 处 。 


——ATRANS: 占有 、 物 主 或 控制 等 抽象 关系 的 转移 。 例 如 ， 
give (Z3) 就 是 占有 关系 或 所 有 权 的 ATRANS， 也 就 是 把 某 物 ATRANS 
给 某 人 ，take ( 拿 ) 就 是 把 某 物 ATRANS 给 自己 ，buy GE) 是 由 两 个 
互 为 因果 的 概念 构成 的 ， 一 个 是 钱 的 ATRANS ， 一 个 是 商品 的 
ATRANS 。 


INGEST: 使 某 种 东西 进入 一 个 动物 的 体内 。INGEST 的 宾语 
通常 是 食物 、 流 体 或 气体 。 例 如 ，eat (HZ) , drink (HS) ,smoke ( 抽 
AW) , breathe (呼吸 ) 等 都 是 INGEST ° 


— PROPEL: 在 某 物 上 使 用 体力 。 例 如 ，push (WŒ) , pull 
( 拉 ) , kick ( 跑 ) 都 是 PROPEL ° 


——MTRANS: 人 与 人 之 间或 者 在 一 个 人 身上 的 精神 信息 的 转 
移 。 例 如 ，tell (告诉 是 人 们 之 间 的 MTRANS，see (看 ) 则 是 个 人 
内 部 从 眼睛 到 大 脑 的 MTRANS ， 类 似 的 还 有 remember (回忆 ) 


forget (Cid) ^leam (学 习 ) 等 。 


——MBUILD: 人 根据 旧 信 息 加 工 成 新 信息 。 例 如 ，decide QE 
XE) ,conclude (得 出 结论 ) , imagine (想象 ，, consider (考虑 ) 等 都 
是 MBUILD。 


1977 年 尚 克 和 阿 贝尔 森 共 列 出 了 11 个 基本 行为 。 除 了 上 上述 的 6 个 之 
外 ， 还 有 MOVE, GRASP, EXPEL, SPEAK, ATTEND&$5^h » 54b, Y^ 
有 一 个 用 于 表示 行为 哑 元 的 DO 〈 泛 指 一 般 的 行为 ) 。 


这 些 基本 行为 的 概念 之 间 的 关系 ， 叫 做 依存 (dependency) ° 
存 关 系 的 数量 也 是 有 限 的 ， 每 种 依存 关系 用 一 种 特殊 的 箭头 在 图 上 表 
示 出 来 ， 构 成 概念 依存 ( concept dependency diagram ) 。 例 
"l|, “John gives Mary a book.” 这 个 句子 的 概念 依存 图 如 下 : 


Mary 
O R 
John © ATRANS «——— a 
John 


图 8.23 ”概念 依存 图 


其 中 ，John, book, Mary 叫 做 概念 结 点 ，ATRANS 是 这 个 结 点 表示 
的 一 个 基本 行为 ， 是 “给 ”这 种 抽象 天 系 的 转移 ， 标 有 R 的 三 通 箭 头 表 
示 John, Mary 和 Book 之 间 的 接受 或 给 予 的 依存 关系 ， 因 为 Mary 从 John 
那里 得 到 了 一 本 book， 标 有 O 的 箭头 表示 “ 宾 位 ”的 依存 关系 ， 也 融 是 
说 ，book 是 ATRANS 的 目的 物 。 


概念 依存 理论 中 的 基本 状态 的 数量 比较 多 。 这 里 举 出 儿 种 : 


一 HEALTH 表 示 健 康 状 态 ， 取 值 从 -10 到 +10: 


死 (-10) ”重病 (-9) S (-9 到 -1) 不 舒服 (-2) 
正常 (0) “好 (+7) 完全 健康 (+10) 


一 -FEAR 表 示 害 人 状态 ， 取 值 从 -10 到 0: 


毛骨悚然 (-9) BEER (-5) ”担心 (-2) ”平静 (0) 


一 MENTAL-STATE 表 示 精 神 状 态 ， 取 值 从 -10 到 +10: 


ASE C9) YATE C5) 心烦 C3) ”忧愁 (-2) 
正常 (0) “人 愉快 (+2) ”高 兴 (+5) ”心醉 神 怡 (+10) 


一 PHYSICAL-STATE 表 示 物 理 状 态 ， 取 值 从 -10 到 +10: 


死 (-10 ”重伤 (-9)” 轻 伤 (-5) ”物体 破碎 (-5) 
受伤 (-1 到 -7) ”正常 (+10) 


例如 ， 
Mary HEALTH (-10) Mary is dead. 
(玛丽 死 了 。 ) 
John MENTAL-STATE (+10) John is ecstatic. 
(约翰 心醉 神 怡 。) 
Vase PHYSICAL-STATE (-5) The vase is broken. 


(瓶子 打 碎 了 。) 


此 外 ， 还 有 CONSCIOUSNESS, ANGER, HUNGER, DISGUST, 
SURPRISE 等 也 都 表示 基本 状态 。 


男 外 一 些 基本 状态 用 来 表示 物体 之 间 的 关系， 它们 不 能 用 数值 标 
尺 来 度量 。 例 如 , CONTROL, PART-OF, POSSESSION, 
OWNERSHIP , CONTAIN, PROXIMITY, LOCATION, PHYSICAL- 
CONTACTS ° 


基本 行为 和 基本 状态 可 以 结合 起 来 。 例 如 ，John told Mary that 
Bill was happy 这 个 句子 ， 可 以 不 用 上 面 的 那 种 讲 箭 头 的 表达 式 ， 而 用 
基本 行为 和 基本 状态 表示 如 下 : 


John MTRANS (Bill BE MANTAL-STATE (+5) ) to Mary 


EB, MTRANS X 7s John jE 2 PEU TIU PR 2G Mary, th 
是 “约翰 告诉 玛丽 ”MENTAL-STATE (+5) 表示 精神 状态 还 好 ， 也 就 
是 说 , “比尔 是 幸福 的 >， 这 是 精神 信息 转移 的 内 容 。 


这 个 句子 也 可 以 用 基本 行为 和 基本 状态 表示 如 下 : 


(MTRANS (ACTOR John) 
OBJECT (MENTAL-STATE (OBJECT BILL) 
(VALUE 5) ) ) 
(TO Mary) 
(FROM John) 
(TIME PAST) ) 


根据 前 面 的 解释 ， 读 者 不 难 理解 这 个 表达 式 的 含义 。 
下 面 是 用 这 样 的 方式 表达 的 两 个 语句 的 例子 : 
例子 1. John gave Mary a book. 


(ATRANS (ACTOR John) 
(OBJECT book) 
(TO Mary) 

(FROM John) 

(TIME PAST) ) 


例子 2. John killed Mary. 


(HEALTH (OBJECT Mary) 
(VALUE - 10) 
(CAUSE (DO (ACTOR John) ) ) ) 


推理 在 语义 分 析 过 程 中 是 非常 重要 的 ， 这 不 仅 是 由 于 句子 中 个 别 
单词 或 句法 结构 的 玻 义 需要 借助 于 推理 来 排除 ， 而 且 我 们 还 希望 挖掘 
出 句子 中 缠 涵 的 信息 。 


尚 克 等 人 为 概念 依存 理论 建立 了 如 下 5 条 推导 因 采 关系 的 规则 : 
(行为 可 以 引起 状态 的 改变 ; 

书 状 态 可 以 使 行为 成 为 可 能 ; 

(3 状态 可 以 使 行为 成 为 不 可 能 ; 

(状态 可 以 激发 一 个 精神 事件 ， 行 为 也 可 以 激发 一 个 精神 事件 ; 
(3 精神 事件 可 以 成 为 行为 的 原因 。 


下 面具 体 说 明 这 种 显 式 表达 的 应 用 。 

例子 1. 如 果 有 

(ATRANS (ACTORx) (OBJECTy) (TOz) (FROMw) ) 
则 我 们 可 以 进行 如 下 的 推理 ; 


前 提 : w 拥 有 y [相当 于 (POSSESSES (ACTOR w) 


-1 (OBJECT y) ) | 


结果 : z 拥 有 y: 
允许 z 利 用 y 的 某 些 功能 ; 
w 不 再 拥有 y。 


例子 2. 如 果 有 
(PTRANS (ACTORx) (OBJECTy) (TOz) (FROMw) ) 
则 我 们 可 以 进行 如 下 的 推理 : 
前 提 : y 原 先 在 w 处 [相当 于 (LOCATION (OBJECT y) 
-1 (LOCw) ) | 


结果 : y 现 在 处 于 z 处 ; 
如 果 z 是 某 个 物体 的 存放 处 所 ， 那 么 ，z 现 在 可 以 利用 该 物体 的 功能 
T; 
y 现 在 已 经 不 处 于 w 处 。 


例子 3. 如 果 存 在 给 定 状态 (POSSESSES (ACTOR x) (OBJECT 
y) ) 


则 我 们 可 以 推导 出 有 天 行为 的 原因 : 


(ATRANS (ACTOR?) (OBJECT y) (TOx) (FROM 
23 


x 之 所 以 POSSESSE y 是 由 于 某 个 ACTOR 从 自身 处 把 y 的 ATRANS 
给 了 人 x。 
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息 尽量 地 显现 出 来 。 


例如 ，John eats the ice cream with a spoon. (约翰 用 匙 吃 冰 淇 淋 ) 
这 个 句子 ， 可 以 用 概念 依存 图 表示 如 下 : 


在 图 8.24 中 ， 标 有 D 的 箭头 表示 方向 依存 关系 ， 标 有 I 的 箭头 表示 
工具 依存 关系 。 值 得 注意 的 是 ，mouth ( 口 ) 在 原来 的 句子 中 并 不 存 
在 ， 但 是 它 却 作为 一 个 概念 结 点 进入 了 概念 依存 表达 式 中 ， 这 是 概念 
依存 网 络 与 在 分 析 时 产生 的 推导 树 之 间 的 一 个 根本 的 不 同 点 。 根 据 概 
念 依 存 理 论 的 第 三 条 原理 ，John 的 mouth 是 作为 ice creamh 2224 as ho He 
地 存在 于 句子 的 意义 之 中 的 ， 不 管 它 是 不 是 用 文字 表示 出 来 ，JohnI2Z 
冰 湛 淋 的 时 候 一 定 要 动用 mouth 这 个 接纳 器 ， 因 此 ， 我 们 应 该 在 概念 
依存 表达 式 中 把 它 表 示 出 来 。 


John 

John 

John e» INGEST = ice cream 2 

Spoon 

Move 
Ice cream 
| ————- Spoon 
CONTAIN(spoon) »| 


ice cream mouth 


图 8.24 HORE REC A 
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表达 式 还 可 以 把 意思 表示 得 更 细致 一 些 。 例 如 ， 这 个 句子 还 可 以 解释 


“John INGESTs the ice cream by TRANSing the ice cream on a spoon 
to his mouth, by TRANSing the spoon to the ice cream, by GRASPing the 
spoon, by MOVing his hand to the spoon, by MOVing his hand muscles.” 


(约翰 把 冰淇淋 纳入 其 体内 ， 把 是 里 的 冰淇淋 转移 到 他 的 口中 ， 
把 是 转移 到 冰淇淋 上 ， 抓 住 十 ， 把 他 的 手 往 匙 那 边 移动 ， 并 且 使 他 
手 上 的 肌肉 动 起 来 。) 

当然 ， 在 一 般 情 况 下 ， 我 们 没有 必要 没完 没 了 地 进行 这 样 的 扩 
展 ， 只 需 扩 展 到 能 够 满足 目 然 语言 处 理 系统 的 具体 要 求 束 可 以 了 。 


对 于 诸如 同 义 互 训 (papaphrase) 和 回答 问题 ( question 
answering) 这 样 的 工作 ， 概 念 依存 表达 式 同 那些 面向 表层 结构 的 系统 
比较 起 来 ， 具 有 不 少 的 优点 。 


例如 ， 


Shakspeare wrote Hamlet. 


(莎士比亚 写 了 汉 姆 羔 特 ) 
和 


The author of Hamlet was Shakespeare. 


( 汉 姆 莱特 的 作者 是 莎士比亚 ) 


这 两 句 话 ， 有 完全 相同 的 意思 ， 因 而 可 以 用 同样 的 概念 依存 表达 
式 来 表示 。 


概念 依存 表达 式 一 般 不 依赖 于 句法 ， 这 与 早期 的 短语 结构 语法 的 
释 句 方式 有 很 大 的 不 同 。 


3. 框架 表示 法 


框架 表示 法 也 叫做 槽 填充 (slot-filler) 表示 法 。 在 语义 网 络 中 ， 
客体 用 图 的 结 点 来 表示 ， 客 体 之 间 的 关系 用 有 和 名字 的 连接 边 来 表示 。 
在 框架 表示 法 中 ， 客 体 用 特征 结构 来 表示 ， 因 此 ， 它 当然 也 可 以 很 目 
然 地 表示 为 “特征 一 值 矩 阵 ”。 在 这 样 的 表示 方法 中 ， 特 征 叫 做 楼 
(slot) ， 而 这 些 槽 的 值 叫 做 填充 者 (filer) ， 填 充 者 可 以 用 原子 值 来 
表示 ， 或 者 可 以 用 男 一 个 娩 套 的 框架 来 表示 。 


例如 ，I believe Mary ate Japanese food. 这 个 句子 的 框架 ， 可 以 
用 "特征 一 值 和 矩阵? 表示 如 下 : 
BELIEVING 
BELIEVER Speaker 
EATING 
BELIEVED | EATER Mary 
EATEN  JapaneseFood 


这 种 意义 表示 方法 目前 被 广泛 地 接受 ， 因 为 它 可 以 比较 容易 地 转 写 为 
等 价 的 FOPC 命 题 。 


BO ”句法 驱动 的 语义 分 析 和 小 
层 语义 分 析 


前 面 我 们 讲述 了 意义 的 四 种 形式 化 表示 方法 ， 现 在 我 们 来 讨论 怎 
样 进行 语义 分 析 ， 主 要 介绍 句法 驱动 的 语义 分 析 、 语 义 语法 以 及 浅 层 
语义 分 析 。 


1. 句法 驱动 的 语义 分 析 


句法 驱动 的 语义 分 析 (Syntax-Driven Semantic Analysis) 的 理论 
基础 是 弗 雷 格 提 出 的 “组 成 性 原则 ” (principle of compositionality) ° 


组 成 性 原则 认为 : 一 个 句子 的 意义 可 以 由 它 的 几 个 部 分 (parts) 
的 意义 组 合 而 成 。 从 表面 上 看 来 ， 这 个 原则 似乎 是 司空 见 惯 的 常识 ， 
不 大 有 用 处 。 众 所 周知 ， 句 子 是 由 单词 构成 的 ， 而 单词 是 语言 中 意义 
的 最 基本 载体 。 因 此 ， 这 个 原则 所 告诉 我 们 的 全 部 内 容 似乎 不 过 是 应 
该 由 句子 中 所 包含 的 各 个 单词 的 意义 来 组 成 名 子 所 代表 的 意义 。 


不 过 ， 如 果 我 们 仔细 思考 这 个 “组 成 性 原则 ”， 我 们 还 可 以 更 加 深 
刻 认 识 到 :一 个 句子 的 意义 并 不 仅仅 依赖 于 句子 中 的 词汇 ， 它 还 依赖 
于 句子 中 词汇 的 顺序 ， 词 汇 所 形成 的 群 组 以 及 词汇 间 的 关系 。 因 此 ， 
句子 的 意义 应 该 部 分 地 依赖 于 句法 结构 ， 我 们 可 以 从 句法 来 驱动 语义 
分 析 ， 从 而 得 到 句子 的 语义 。 这 束 是 句法 驱动 的 语义 分 析 的 基本 根 
据 。 


在 句法 驱动 的 语义 分 析 中 ， 意 义 表 示 的 组 成 古 由 我 们 在 前 面 讨论 
的 语法 分 析 中 所 提供 的 句法 成 分 和 关系 来 引导 的 。 


首先 ， 我 们 以 输入 句子 的 句法 分 析 结 果 作 为 语义 分 析 套 的 输入 。 
输入 句子 首先 通过 天 析 器 获得 它 的 句法 分 析 结 采 。 接 看 这 个 句法 分 析 
结 采 被 传 给 语义 分 析 器 来 产生 意义 表示 。 


在 图 8.23 中 ， 输 入 句子 经 过 剖析 器 得 到 表示 句子 句法 结构 的 树 形 
图 ， 经 过 语义 分 析 妖 ， 最 后 得 到 句子 的 语义 表示 作为 输出 。 这 种 方 
法 ， 叫 做 “管道 流 方法 ”(pipe-line approach) ° 


值得 注意 的 是 ， 尽 管 在 图 8.25 中 我 们 使 用 剖析 大 产 生 的 树 形 图 作 
为 输入 ， 但 是 在 实际 上 ， 我 们 也 可 以 用 其 他 的 句法 表示 ， 比 如 特征 结 
构 、 词 汇 依 存 关系 图 等 作为 输入 。 


HX 输出 
S —__» 部 一 一 树 形 图 一 一 T ——4| , - 
| 
管道 流 方法 


图 8.25 ey 


如 果 我 们 已 经 得 到 了 表示 输入 句子 句法 结构 的 树 形 图 ， 那 么 。 我 
们 就 可 以 进行 句法 驱动 的 语义 分 析 了 。 


一 般 地 说 ， 语 义 分 析 可 以 分 为 如 下 几 个 步 又 : 
(1) 把 单词 的 FOPC 表 达 式 附着 到 树 形 图 中 的 词汇 单元 上 。 
(2) 把 树 形 图 中 无 分 义 子 树 的 子女 结 点 的 语义 值 复制 到 父母 结 点 


Tue 


(3) 把 类 似 于 函数 的 “表达 式 ” (A-expressions) 附着 到 句子 的 中 
心动 词 上 ， 然 后 使 用 这 个 类 似 于 函数 的 和 表达 式 来 处 理 该 动词 的 一 个 或 
多 个 子女 结 点 。 


(4) 使 用 “复杂 项 ”(complex term) 来 处 理 带 有 远 辑 量词 的 表达 
式 ， 把 这 种 复杂 的 表达 式 临 时 地 作为 一 个 单独 的 项 来 处 理 。 


下 面 我 们 首先 从 分 析 比 较 简 单 的 句子 “Maru serves meat.” 开 始 来 说 
明 上 还 语 义 分 析 的 过 程 。 


(1) 把 单词 的 FOPC 表 达 式 附着 到 树 形 图 中 的 词汇 单元 上 。 
这 个 输入 句子 经 过 句法 分 析 之 后 ， 我 们 得 到 如 下 的 树 形 图 : 


a thee 
| a mS 


Proper -Noun Verb 


Maru serves Mase- Noun 


meat 


图 8.26 ”经 过 句法 分 析 得 到 的 树 形 图 


为 了 处 理 语义 信息 ， 我 们 需要 扩充 上 下 文 无 关 规则 ， 给 上 下 文 无 
关 规 则 附着 语义 信息 。 抽 象 地 说 ， 扩 充 的 上 下 文 无 关 语 法 规则 的 结构 
为 ; 


A> oy .on {f (aj.sem,.., oy.sem) } 


容易 看 出 ， 我 们 在 基本 的 上 下 文 无 关 规 则 A-~ oa .on 的 右手 边 
(RHS) 增加 了 {f (a .sem, …，oak .sem) } 这 样 的 语义 信息 。 如 果 我 们 
给 成 分 A 附着 的 语义 信息 记 为 A.sem， 那 么 ， 这 个 语义 信息 可 以 通过 计 


= ER af (a; Sem, .., oy.sem) 而 得 到 ， 其 中 ， (a; sem, .., Ok 


sem) 是 规则 右手 边 (RAS) KIo … on 相应 的 语义 信息 。 


在 我 们 的 例子 中 ， 我 们 从 句子 中 比较 具体 的 成 分 Maru 和 meat 开 始 
进行 计算 ， 这 两 个 成 分 都 是 名 词 短语 NP， 然 后 目下 而 上 地 、 一 步 一 步 
地 计算 出 更 加 复杂 的 语义 表达 式 ， 最 后 计算 出 整个 句子 的 语义 表达 
式 。 我 们 句子 中 的 具体 成 分 Maru 和 meat 可 以 分 别 用 FOPC 和 常数 Maru 和 
Meat 来 表示 ， 为 了 与 单词 Maru 和 meat 相 区 别 ， 我 们 把 这 两 个 表示 语义 
言 息 的 常数 用 斜体 字母 表示 。 我 们 首先 把 这 两 个 营 数 附着 到 树 形 图 中 
相应 的 成 分 上 ， 得 到 下 面 的 扩充 的 上 下 文 无 天 规则 : 


ProperNoun ^ Maru ~ 
MassNoun — meat oe 


在 这 两 个 规则 中 ，{Maru FRI (Meat } 表 示 附 着 在 有 规则 所 生成 的 
子 树 中 所 包含 的 语义 信息 ， 即 常数 Maru 和 Meat 。 


(2) 把 树 形 图 中 无 分 义 子 树 的 子女 结 点 的 语义 值 复制 到 父母 结 点 
fom 


在 树 形 匈 中 ， 上 层 结 点 NP 的 语义 表示 信息 可 以 从 它们 的 子女 结 点 
获得 ， 因 此 。 我 们 可 以 把 子女 结 点 的 语义 表示 信息 直接 地 复制 到 它们 
的 父母 结 点 上 。 


NP ^ ProperNoun {ProperNoun.sem } 


NP ^» MassNoun {MassNoun.sem } 


这 两 个 规则 说 明 ， 名 词 短 语 NP 的 语义 表示 信息 与 它们 的 子女 结 点 
ProperNoun 和 MassNoun 的 语义 表示 信息 是 相同 的 ， 分 别 表示 为 
ProperNoun.sem 和 MassNoun.sem 。 一 般 说 来 ， 在 表示 无 分 又 子 树 的 语 
法 规则 中 ， 子 女 结 点 的 语义 表示 信息 可 以 原封 不 动 地 复制 到 它们 的 父 
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(3) 把 类 似 于 函数 的 和 表达 式 (A-expressions) 附着 到 句子 的 中 心 
动词 上 ， 然 后 使 用 这 个 类 似 于 函数 的 和 表达 式 来 处 理 该 动词 的 一 个 或 多 
个 子女 结 点 。 


把 子女 结 点 的 语义 表示 信息 复制 到 它们 的 父母 结 点 上 以 后 ， 我 们 
束 可 以 来 计算 以 动词 serves 为 中 心 的 这 个 句子 所 描述 的 事件 的 语义 信息 
了 。 一 个 普通 的 Serving 事 件 包 含 Server (供应 者 ) 和 Served (供应 的 东 
Pa) ， 可 以 用 如 下 的 逻辑 公式 来 表示 : 


de, x, y ISA (e, Serving) A Server (e, x) A Served (e, y) 


对 于 动词 serves 的 语义 附着 ， 我 们 只 需要 简单 地 把 这 个 逻辑 公式 加 
到 上 下 文 无 关 语 法 规则 的 右手 边 就 可 以 了 ， 我 们 有 : 


Verb 一 Serves 


{ de, x,yISA (e, Serving) A Server (e, x) A Served (e, y) } 


然后 我 们 在 树 形 图 中 继续 向 上 进行 语义 计算 ，Verb 结 点 的 上 面 一 
个 成 分 是 VP， 这 个 VP 的 子 树 不 是 一 个 无 分 义 的 子 树 ， 它 对 应 着 一 个 
有 分 又 的 语法 规则 ，VP 包 含 serves 和 meat 两 个 单词 ， 直 接 文 配 着 Verb 
和 NP 这 两 个 子 文 结 点 ， 这 时 ， 我 们 不 能 把 Verb 和 NP 这 两 个 子女 结 点 的 
语义 表示 信息 直接 复制 到 VP 上 ， 我 们 需要 把 NP 的 语义 信息 融合 到 Verb 
的 语义 信息 中 去 ， 并 且 把 融合 所 得 的 语义 表示 信息 指派 给 VP， 这 个 融 
合 后 得 到 的 语义 表示 信息 记 为 VP.sem 。 


但 是 ， 关 于 动词 serves 的 FOPC 公 式 不 能 给 我 们 提供 任何 的 手段 ， 
而 也 就 不 能 告诉 我 们 在 什么 时 候 和 用 什么 方式 来 处 理 FOPC 公 式 中 包 


S Rx, y 这 两 个 变量 。 


在 这 种 情况 下 ， 我 们 可 以 使 用 “lambda 符 号 ”(lambda notation) 来 
解决 这 个 问题 。Lambda 符 号 是 FOPC 符 号 的 扩展 ， 它 给 我 们 提供 了 这 
种 形式 化 参数 的 功能 。lambda 符 号 扩充 了 FOPC 人 句法 ， 使 FOPC 能 引入 

下 面 的 表达 式 : 


AxP (x) 


这 个 表达 式 由 三 部 分 组 成 ， 首 先是 希腊 符号 ( 读 为 ambda”) , 
接 看 是 一 个 或 多 个 变量 ， 最 后 古 使 用 这 些 变 量 的 FOPC 表 达 式 。 


当 我 们 把 表达 式 用 于 逻辑 项 时 ， 可 以 生成 新 的 FOPC 表 达 式 ， 在 
这 些 新 的 FOPC 表 达 式 中 的 形式 参数 变量 可 以 由 指定 的 项 来 绑 定 。 这 种 
处 理 叫 做 “化 简 ” (A-eduction) ， 化 人 简 就 是 变量 由 指定 的 FOPC 项 来 
进行 简单 的 字面 奉 换 并 去 掉 和 的 过 程 。 


下 面 表 达 式 说 明 这 种 和 化 简 的 过 程 。 首 移 将 一 个 人 表达 式 用 于 常量 
A， 得 到 AxP (x) (A) ， 接 着 对 这 个 表达 式 进 行 化 简 ， 用 指定 的 项 
A 来 替换 P (x) 中 的 形式 参数 变量 x， 得 到 P (A) : 


AxP (x) (A) 
P (A) 


和 符号 提供 了 我 们 前 述 的 在 动词 语义 中 需要 的 两 种 能 


| 


第 一 ， 形 式 参 数 使 我 们 可 以 表达 各 种 不 同 变量 ， 


第 二 ， 和 化 简 可 以 使 我 们 用 项 来 蔡 换 这 些 变 量 。 


> 


这 样 ， 我 们 就 可 以 将 一 个 和 表达 式 作 为 另 一 个 和 表达 式 的 一 部 分 
如 下 所 示 : 


AxAyNear (x, y) 


这 个 表达 式 非 常 抽象 ， 可 以 解释 为 某 些 事物 x 与 男 一 些 事物 y 彼 此 
接近 (Near) 的 状态 。 例 如 ， 我 们 可 以 用 它 来 描述 句子 “Log-house is 
near KAIST” ° 


首先 ， 我 们 用 项 KAIST 来 雁 换 变量 x， 进 行 和 化 徐 ， 得 到 : 


Ax Ay Near (x, y) (KAIST) 
Ay Near (KAIST, y) 


显而易见 ， 这 个 和 化 简 之 后 得 到 的 结果 仍然 是 一 个 人 表达 式 。 第 一 
次 和 化 简 时 ， 绑 定 了 变量 x， 并 把 这 个 x 从 和 表达 式 中 删除 ， 这 样 Bet 


内 部 的 男 一 个 和 表达 式 就 浮现 出 来 了 ， 它 就 是 和 y Near (KAIST, y) ， 我 
们 用 男 外 一 个 项 Log-house 来 蔡 换 变量 y， 得 到 如 下 的 逻辑 公式 : 


Ay Near (KAIST,y) (Log-House) 
Near (KAIST, Log-House) 


最 后 得 到 的 FOPC 公 式 “Near (KAIST, Log-House) ”清楚 地 描述 了 
句子 “Log-house is near KAIST.” 的 语义 。 


这 种 多 次 进 He o e (currying) ， 也 就 是 像 梳 

理 马 的 肾 毛 那样 ， 一 步 地 进行 变量 的 和 化 简 。 当 谓词 具有 多 个 论 元 

的 时 候 ， DE 可 以 把 含有 多 个 论 元 的 谓词 转换 为 若干 

个 只 含有 单个 论 元 的 谓词 的 序列 。 所 以 ， 这 种 “梳理 ?技术 和 是 非常 有 用 
HY ° 


现在 ， 我 们 就 可 以 使 用 符号 和 和 化 人 简 来 处 理 前 面 天 于 VP 的 语义 附 
着 问题 了 。 

我 们 有 关于 动词 serves 的 扩充 的 上 下 文 无 天 规则 如 下 : 
Verb-serves 


{ 3e, x, y ISA (e, Serving) A Server (e, x) A 


Served (e, y) } 


首先 ， 我 们 把 这 个 规则 中 的 动词 语义 附着 改变 为 表达 式 ， 得 到 : 


Verb-serves 


AxAy{ de, x, y ISA (e, Serving) A Server (e, x) A Served 


(e, y) } 


Vermb 附 着 的 主要 部 分 是 由 一 个 人 表达 式 典 入 一 个 表达 式 来 组 成 
的 。 外 部 的 表达 式 提供 了 首次 M 化 简 中 可 以 替换 的 变量 x， 而 内 部 的 表 
达 式 可 用 充当 Server 角 色 的 变量 y 来 绑 定 。 在 动词 语义 附着 中 多 层 ) 表 
达 式 的 变量 的 顺序 ， 清 楚 地 表明 在 句法 中 动词 论 元 具有 所 期 望 的 位 置 
这 一 事实 。 


然后 ， 我 们 使 用 “梳理 ”的 方法 ， 一 步 一 步 地 进行 变量 的 和 化 简 。 首 
先 使 用 内 部 的 和 表达 式 对 充当 serves 角 色 的 变量 y 进 行 绑 定 ， 在 我 们 的 例 
子 中 ， 及 物 动词 VP 规 则 的 语义 附着 确定 了 入 应用， 这 里 和 表达 式 由 
Verb.sem 指 定 ， 论 元 由 NP.sem (Verb.sem 的 子女 结 点 ) 指定 。 


VP > Verb NP {Verb.sem (NP.sem) } 


这 个 和 变换 使 用 NPsem 中 包含 的 值 来 替换 y， 也 就 是 用 常数 “Meat” 替 换 
包含 在 内 部 表达 式 中 的 变量 y 来 进行 化 简 。 和 变换 后 得 到 的 表达 式 代表 
T VP“serves meat” 的 含义 ，VP.sem 的 值 如 下 : 


Ax{ de, x ISA (e, Serving) A Server (e, x) A Served (e, 
Meat) } 


由 于 谓词 具有 多 个 论 元 ， 还 需要 继续 进行 梳理 。 为 了 完成 这 个 句子 的 
语义 分 析 ， 我 们 还 要 为 规则 $ 建 立 语义 附着 。 这 个 规则 $ 必 须 把 VP 前 面 
的 论 元 NP 融 入 到 VPsem 中 的 事件 所 代表 的 语义 角色 中 去 。 这 需要 使 用 
男 一 个 变换 来 处 理 句 首 的 NP.sem 。 


S-NP VP {VPsem (NPsem) } 
这 里 的 NP.sem 是 处 于 句 首 的 NP.sem ° 
这 个 变换 的 结果 如 下 : 


de ISA (e, Serving ) A Server (e, Maru) A Served (e, 
Meat) 


AMERI 1 LOTS AR o 


“Maru serves meat" 这 个 句子 的 语义 是 : 存在 者 一 个 关于 “ 供 
NM" (Serving) 的 事件 ， 这 个 事件 的 “供应 者 ”(Server) 是 饭馆 Maru， 
这 个 事件 的 “供应 物 ”(Served) “AE” (Meat) 。 这 样 的 语义 ， 正 
确 地 反映 了 这 个 句子 的 实际 含义 。 可 见 我 们 的 语义 分 析 是 成 功 的 。 
具有 上 述 语 义 附 着 的 剖析 树 如 下 : 


S 3e ISA(e,Serving) A Server(e, Maru) A Served(e, Meat) 


NP VP Axi3e,xISA(e,Serving) A Server(e, x) A Served(e, Meat)} 


Proper-Noun Verb NP 


Maru serves Mase- Noun 


Meat 
图 8.27 带 语 义 附 着 的 剖析 树 


使 用 这 样 的 语义 分 析 方 法 ， 我 们 束 可 以 把 表示 句法 结构 的 剖析 树 
转化 为 市 有 语义 附着 的 剖析 树 。 


显而易见 ， 这 样 的 语义 分 析 方 法 是 由 句法 驱动 的 ， 所 以 ， 我 们 把 
这 样 的 方法 叫做 句法 驱动 的 语义 分 析 法 。 


(4) 使 用 复杂 项 来 处 理 那 些 带 有 逻辑 量词 的 表达 式 ， 把 这 样 的 表 
达 式 临时 作为 项 来 处 理 。 


我 们 来 研究 句子 “A restaurant serves meat”。 这 个 句子 与 我 们 上 面 
的 句子 “Maru serves meat” 的 不 同 之 处 仅仅 在 于 主语 ， 这 个 句子 的 主语 
是 带 有 逻辑 量词 的 NP“A restaurant”， 而 上 面 句子 的 主语 是 一 个 专 有 和 名 
词 “Maru”。 由 于 句子 的 其 他 部 分 相同 ， 所 以 我 们 只 需要 着 重地 人 研究 主 
语 的 语义 表示 问题 ， 然 后 ， 把 这 个 语义 表示 融合 到 动词 短语 中 就 可 以 
T o 


初 看 起 来 ， 我 们 似乎 可 以 把 这 个 句子 的 主语 表示 为 如 下 的 公式 : 
Jx ISA (x, Restaurant) 
ER 4l TEE BAIA TRA SIIB Serve” FR, 8l: 


Je ISA (e, Serving) A Server (e, Ix ISA (x, Restaurant) ) A 
Served (e, Meat) 


尽管 这 个 表达 式 在 直觉 上 似乎 是 合理 的 ， 但是， 这 不 是 一 个 合格 
的 FOPC 人 公式， “dx ISA (x, Restaurant) ”不 能 作为 谓词 的 论 元 ， 因 为 
FOPC 中 谓词 的 论 元 只 能 是 项 。 


我 们 可 以 引入 复杂 项 (complex-term) 的 概念 来 解决 这 个 问题 。 
我 们 把 “3x ISA (x, Restaurant) ”前 后 用 尖 括 号 把 括 起 米 ， 改 写 为 <3x 
ISA (x, Restaurant) >， 这 个 <3x ISA (x, Restaurant) > 就 是 复杂 项 ， 


它 可 以 出 现在 一 般 的 FOPC 中 只 有 项 才能 出 现 的 位 置 上 。 


形式 地 说 ， 一 个 复杂 项 可 以 由 如 下 三 个 部 分 组 成 : 


<Quantifier variable body> 


其 中 ，Quantifier 是 “量词 ”，variable 是 “变量 ”，body 是 “ 体 ”。 在 复 
杂项 <3x ISA (x, Restaurant) > 中 ，3 是 “量词 "，x 是 “变量 ”,，ISA (x, 


Restaurant) 是 “ 体 ”。 


把 复杂 项 这 样 的 记 法 应 用 到 我 们 的 句子 中 ， 我 们 可 以 得 到 如 下 的 
表达 式 : 


de ISA (e, Serving) A Server (e, <dx ISA (x, Restaurant) 
>) A Served (e, Meat) 


我 们 可 以 根据 下 面 的 规则 来 改写 任何 包 侣 复杂 项 的 谓词 : 


P (<Quantifier variable body>) 


= 


Quantifier variable body Connective P (variable) 


AMAIE SC: 


复杂 项 可 以 从 它 所 出 现 的 谓词 P 中 抽取 出 来 ; 

复杂 项 可 以 由 问题 中 代表 客体 的 变量 来 替换 ; 

在 复杂 项 蔡 换 时 ， 要 使 用 适当 的 连接 词 (Connective) 把 原来 复 
杂项 中 的 量词 、 变 量 和 体 与 含有 变量 的 谓词 P 联 系 起 来 。 


根据 这 个 规则 ， 我 们 有 : 


Server (e, «3x ISA (x, Restaurant) >) 


一 


dx ISA (x, Restaurant) A Server (e, x) 


这 里 ， 我 们 使 用 的 连接 词 是 <A”"， 此 外 ， 还 可 以 使 用 连接 词 “=” 。 


完 竟 使 用 什么 样 的 连接 词 依赖 于 表达 式 中 的 逻辑 量词 。 如 果 遇 辑 
量词 为 存在 量词 ， 则 连接 词 为 <A”， 如 果 罗 辑 量词 为 全 称 量词 ， 则 连 
接 词 为 “=”。 也 就 是 说 ， 


。 人 与 存在 量词 3 一 起 使 用 : 
e 一 与 全 称 量词 V 一 起 使 用 。 


我 们 的 表达 式 为 : 


de ISA (e, Serving) A Server (e, <dx ISA (x, Restaurant) 
>) A Served (e, Meat) 


在 这 个 表达 式 中 ， 复 杂项 <3x ISA (x, Restaurant) > 的 量词 为 存在 
量词 ， 所 以 ， 应 该 用 连接 词 “A” 改 写 为 “3x ISA (x, Restaurant) A 
Server (e, x) " » 最 后 我 们 得 到 句子 的 语义 表达 式 如 下 : 


Je ISA (e, Serving) A dx ISA (x, Restaurant) A Server (e, 
x) A Served (e, Meat) 


这 个 表达 式 的 含义 是 : “存在 一 个 事件 Serving，x 和 是 饭馆 ， 并 且 ， 
这 个 氏 馆 是 事件 的 供应 者 ， 这 个 事件 的 供应 物 是 Meat”。 这 正 是 句 


子 “A restaurant serves meat.” 的 语义 分 析 结 果 。 


如 果 人 句子 是“Every restaurant serves meat”, HBA, 复杂 项 中 的 逻辑 
量词 将 是 全 称 量词 v， 我 们 将 使 用 连接 词 “=” 来 进行 改写 。 


Server (e, <V xISA (x, Restaurant) >) 
将 改写 为 : 


VxISA (x, Restaurant) = Server (e, x) 


可 见 ， 在 对 复杂 项 进行 改写 时 ， 不 同 的 逻辑 量词 使 用 的 连接 词 是 
不 同 的 。 我 们 应 该 注意 到 这 个 问题 。 


在 我 们 分 析 的 句子 “a restaurant serves meat” 中， 名词 短 语 “a 
restaurant” 的 语义 附着 是 相当 直观 的 。 我 们 可 以 使 用 下 面 的 规则 来 表 
ZZ 


NP > Det Nominal («Det.sem x Nominalsem (x) >} 


在 这 个 规则 中 ， 语 义 附 着 部 分 是 复杂 项 <Det.sem x Nominalsem (x) 
>， 在 复杂 项 中 ， 首 先 根 据 Det 的 不 同 选 用 不 同 的 逻辑 量词 ， 然 后 根据 
与 “Nominal* 相 关 的 表达 式 来 处 理 变 量 x。 


在 我 们 的 句子 中 ，Det 是 不 定 冠 词 “a”， 因 此 ， 应 该 使 用 逻辑 量 
wa, RITA: 


Det>a {3} 


范畴 Nominal 的 任务 是 建立 一 个 ISA 公 式 和 一 个 与 Noun 相 关 的 入 表 
达 式 。 我 们 有 : 


Nominal ^ Noun {Ax ISA (x, Noun.sem) } 


最 后 ， 名 词 附着 只 需要 提供 一 个 范畴 名 字 束 可 以 了 。 我 们 有 : 


Noun > restaurant {Restaurant} 


这 正 是 名 词 短 语 “a restaurant" AY if V, # iA 3X “gx ISA (x, 
Restaurant) ”的 含义 。 


在 改写 包含 复杂 项 的 谓词 的 规则 中 ， 需 要 针对 不 同 的 逻辑 量词 选 
用 不 同 的 连接 词 ， 因 此 ， 当 一 个 句子 中 既 包 括 市 全 称 量 词 的 名 词 短语 
又 包 括 带 存在 量词 的 名 词 短 语 时 ， 由 于 改写 顺序 的 不 同 ， 就 可 以 得 到 
不 同 的 语义 分 析 结 


我 们 来 考虑 下 面 的 句子 : 


Every restaurant has a menu 


我 们 可 以 用 FOPC 公 式 把 它 表 示 如 下 : 


de ISA (e, Having) 
A Haver (e, < V x ISA (x, Restaurant) >) 


A Had (e, < dy ISA (y, Menu) >) 


这 里 ， 用 来 改写 *Haver” 和 “Had” 的 两 个 复杂 项 的 逻辑 量词 分 别 为 全 称 
量词 和 存在 量词 ， 如 果 我 们 首先 改写 Haver 的 复杂 项 ， 然 后 再 改写 Had 


的 复杂 项 。 也 就 是 首先 把 

Haver (e, « V x ISA (x, Restaurant) >) 
改写 为 

VxISA (x, Restaurant) = Haver (e,x) , 
然后 把 

Had (e, « Jy ISA (y, Menu) >) 
改写 为 


Jy ISA (y, Menu) A Had (e,y) , 


最 后 ， 把 改写 的 结果 合并 ， 我 们 将 得 到 如 下 的 意义 表达 式 .: 


VxISA (x, Restaurant) = 
Je ISA (e, Having) A Haver (e,x) A Ay ISA (y, Menu) A 
Had (e, y) 


这 样 的 表达 式 与 我 们 对 于 这 个 句子 的 常识 性 解释 是 完全 符合 的 。 


fE“deISA (e, Having) ”中 ， 我 们 用 谓词 *Having” 来 替换 ISA， 得 
到 “3e Having (e) ”， 整 理 后 ， 我 们 有 : 


V x ISA (x, Restaurant) = 
Je Having (e) A Haver (e, x) ^ Ny ISA (y, 


Menu) A Had (e, y) 


我 们 再 把 包含 存在 量词 3 的 表达 式 “3e Having (e) ”和 “3yISA (y, 
Menu) ”合并 为 “3e, y Having (e) AISA (y, Menu) ”， 得 到 : 


V x ISA (x, Restaurant) = 
Haver (e, x) Ade, y Having (e) A ISA (y, Menu) A 


Had (e, y) 
这 样 一 来 ， 我 们 有 : 


V x ISA (x, Restaurant) => 
Je, y Having (e) A Haver (e, x) A ISA (y, 


Menu) A Had (e, y) 


这 意味 着 : “for all restaurants, every restaurant has a menu" (对 于 


所 有 饭馆， 每 一 个 饭馆 都 有 一 份 菜单 ) 。 
男 一 方面 ， 对 于 这 个 句子 的 FOPC 公 式 


de ISA (e, Having) 
A Haver (e, < V x ISA (x, Restaurant) >) 


^ Had (e, < Ay ISA (y, Menu) >) 


如 果 我 们 按照 相反 的 顺序 来 改写 复杂 项 ， 也 就 是 首先 把 
Had (e,<dyISA (y, Menu) >) 
改写 为 
Jy ISA (y, Menu) A Had (ey) , 


然后 再 把 


Haver (e, « Vx ISA (x, Restaurant) >) 
加 到 这 个 表达 式 中 ， 得 到 


dy ISA (y, Menu) A Had (e, y) A Je ISA (e, Having) 


A Haver (e, « V x ISA (x, Restaurant) >) , 
接着 ， 再 把 复杂 项 

Haver (e, « V x ISA (x, Restaurant) >) 
改写 为 

V xISA (x, Restaurant) = Haver (e,x) , 
我 们 得 到 : 


Jy ISA (y, Menu) AVXISA (x, Restaurant) = Haver (e, 
x) AHad (e,y) AJeISA (e, Having) , 


“Je ISA (e, Having) ”中 ， 我 们 用 谓词 “Having” 来 奉 换 ISA， 得 
到 “3e Having (e) ”， 整 理 后 ， 我 们 有 : 


dy ISA (y, Menu) A VxISA (x, Restaurant) = Haver (e, 
x) A Had (e,y) Ade Having (e) , 


最 后 ， 我 们 得 到 : 


dy ISA (y, Menu) A VxISA (x, Restaurant) = Je Having 
(e) A Haver (e,x) A Had (e, y) o 


这 意味 着 , “there exits a menu and all restaurant has this menu” ( f£ 
在 着 一 份 菜单 ， 所 有 的 饭馆 都 有 这 份 菜单 ) 。 这 样 的 意思 显然 有 点 儿 
奇怪 ， 但 它 确 实 是 这 个 句子 的 一 种 解释 。 


这 个 例子 说 明 ， 如 果 我 们 按照 不 同 的 顺序 来 改写 复杂 项 ， 我 们 有 
可 能 把 逻辑 量词 中 包含 的 细微 差别 穷尽 地 挖 据 出 来 ， 一 个 高 有 两 个 复 
杂项 的 句子 ， 可 以 具有 两 个 在 意义 上 不 相 容 的 FOPC 表 达 式 。 由 此 可 以 
看 出 ， 我 们 对 于 复杂 项 改写 的 方法 具有 很 强大 的 功能 。 


句法 驱动 的 语义 分 析 所 得 到 的 结果 是 句子 的 语义 表示 ， 这 样 的 语 
义 表示 反映 了 句子 中 的 “谓词 论 元 结构 ”， 便 于 在 机 器 翻译 时 进行 源 语 
言 到 目标 语言 的 转换 。 


2. 语义 语法 


句法 驱动 的 语义 分 析 古 按照 “组 成 性 原则 ”来 进行 的 ， 在 这 样 的 语 
义 分 析 中 ， 语 义 的 组 成 成 分 应 该 与 句法 的 组 成 成 分 相 匹 配 。 但 是 ， 由 
传统 的 上 下 文 无 关 语法 (CFG) 分 析 而 得 到 的 句子 的 句法 结构 常常 不 
适应 于 语义 分 析 的 要 求 ， 句 法 结构 中 的 成 分 与 语义 成 分 之 间 往 往 不 
很 好 地 匹配 。 这 种 不 能 匹配 的 情况 表现 在 如 下 三 个 方面 : 


AB 
HE 
eU 
HE 


中 关键 的 语义 表示 成 分 常常 广泛 地 散布 在 整个 剖析 树 中 ， 这 样 ， 
要 把 剂 析 树 中 需要 的 意义 表示 组 合 起 来 ， 吏 变 得 很 复杂 。 


Go 剖析 树种 常 包含 许多 以 句法 为 目的 成 分 ， 这 些 成 分 在 语义 处 理 
中 并 不 担当 任何 实质 上 的 角色 。 


(3 许多 句法 成 分 的 概括 性 太 强 ， 导 致 与 它们 对 应 的 语义 附着 所 生 
成 的 意义 表示 几乎 是 非常 空洞 的 。 


例如 ，“I want to go to eat some Japanese food today” 这 个 句子 ， 经 


过 句法 剖析 之 后 得 到 如 下 的 树 形 冬 : 


Pro Verb VPto 
| | EN 
I want InfTO VP 
| 有 
to VP Adv 
Verb VPto today 
| he 
go InfTO VP 
| oem De 
to Verb NP 


eat Det Adj Noun 


some Japanese food 


图 8.28 ”剖析 树 


在 这 个 剖析 树 中 ， 关 键 的 语义 表示 成 分 广泛 地 散布 于 整个 的 剖析 
树 ， 同 时 ， 副 析 树 中 的 大 多 数 结 点 对 于 这 个 句子 的 语义 表示 几乎 没有 
任何 的 贡献 。 在 句法 驱动 的 语义 分 析 中 ， 这 个 剖析 树 需 要 进行 三 个 人 表 
达 式 〈 分 别处 理 I，Japanese food, today) 和 一 个 复杂 项 (人 处理 some 
Japanese food) 的 运算 ， 才 能 在 树 的 顶端 得 到 那些 有 实质 意义 的 语义 
表示 成 分 。 在 这 个 剖析 树 中 ， 形 容 词 和 名 词性 成 分 的 意义 都 非常 概括 


和 空洞 ， 除 了 表示 形容 词 对 于 名 词 的 修饰 天 系 之 外 ， 几 乎 没有 什么 具 
体 的 含义 。 


例如 ， 


Nominal ^ Adj Nominal 
(Ax Nominalsem (x) A AM (x, Adj.sem) } 


这 个 规则 中 ，AM 表 示 “Adjective Modifier”, tg x JE ett 
语 >。 在 下 面 的 意义 表达 式 中 ， 使 用 这 样 的 语义 附着 。 我 们 有 : 


Jx ISA (x, Food) A AM (x, Japanese) 


AMEA Te) PE BV) Japanese food” 的 语义 解释 ， 这 样 的 语义 解释 非 
常 之 笼统 和 模糊 ， 它 只 是 说 明 Japanese 是 名 词 food 的 形容 词 修饰 语 ， 这 
就 是 AM (x, Japanese) 提供 给 我 们 的 全 部 语义 解释 的 内 容 。 


但 是 ，“Japanese food” 和 “Japanese restaurant” 表 示 的 语义 比 这 丰富 
得 多 ，“Japanese food” 表 示 用 日 本 的 方式 做 出 的 食品 ， 而 “Japanese 
restaurant” 表 示 供 应 这 种 用 日 本 方式 做 出 的 食品 的 饭馆 。 而 这 些 重要 的 
意思 ， 在 上 面 由 AM (x, Japanese) 给 我 们 提供 的 语义 表示 中 都 消失 得 
无 影 无 中 了 。 


MAAR (Brown) FHE (Burton) 与 1975 年 提出 的 “语义 语 
iE" (Semantic Grammar) 可 以 帮助 我 们 解决 这 个 问题 。 


e 语义 语法 直接 把 有 关 的 语义 成 分 写 到 语法 规则 中 ， 便 于 按照 组 
成 性 的 原则 进行 组 成 成 分 的 分 析 。 


e 语义 语法 中 的 规则 和 成 分 是 直接 针对 具体 领域 的 实体 和 实体 之 
间 的 关系 而 设计 的 ， 因 此 ， 它 能 够 满足 具体 领域 语义 分 析 的 要 求 。 


e 在 语义 语法 中 ， 关 键 的 语义 成 分 总 是 与 特定 的 规则 一 起 出 现 
的 ， 规 则 的 内 容 非 常 具体， 概括 性 比较 低 ， 便 于 进行 语义 分 析 。 


例如 ， 在 分 析 句 子 “I want to go to eat some Japanese food 
today.” 时 ， 我 们 可 以 提出 如 下 的 语义 语法 的 规则 : 


InfoRequest ^ User wants to go to eat FoodType TimeExpr 


这 个 语义 语法 的 规则 与 上 下 文 无 关 语 法 的 规则 在 形式 上 是 一 致 
的 ， 在 规则 的 右手 边 ， 终 极 符号 和 非 终极 符号 可 以 自由 地 混杂 在 一 起 
出 现 ， 这 样 ， 我 们 就 可 以 设计 “User, FoodType, TimeExpr” 等 表示 具体 
语义 的 非 终极 符号 来 表示 在 “今天 (TimeExpr) 我 (User) 想 去 吃 日 本 
食品 (FoodType) ”这 个 特定 的 环境 下 所 需要 的 语义 成 分 。 这 时 ， 我 们 
不 再 需要 和 表达 式 ， 因 为 这 个 简单 的 规则 已 经 足以 表达 在 树 形 图 的 顶端 
有 关 论 元 的 语义 关系 了 。 


我 们 还 可 以 提出 如 下 的 语义 语法 规则 来 表示 食品 的 类 型 : 


FoodType > Nationality FoodType 


在 这 个 规则 中 的 右手 边 有 Nationality 这 个 非 终极 符号 表示 “民族 " 特 
性 ， 有 具体 地 说 明了 所 谓 食品 的 类 型 (FoodType) 是 特别 指 食品 应 该 具 
有 “民族 ” (Nationaly) 风味 ° 


由 此 可 见 ， 语 义 语法 可 以 很 好 地 克服 句法 驱动 的 语义 分 析 的 那 种 
过 于 抽象 概括 的 缺陷 ， 可 以 直接 得 出 语义 分 析 的 结 采 ， 在 具体 领域 的 
语义 分 析 中 是 很 有 效 的 。 


语义 语法 还 可 以 帮助 我 们 解决 目 然 语言 处 理 中 很 困难 的 代词 的 指 
代 问 题 (anaphor) 。 例 如 ， 如 果 我 们 要 分 析 下 面 的 两 个 句子 : 


When does flight KE852 arrive in Seoul? 


When does it arrive in Beijing? 


我 们 不 知道 第 二 个 句子 中 的 it 狗 葛 代 表 什 么 ， 如 果 采 用 人 句法 驱动 的 语 
义 分 析 ， 我 们 只 能 知道 it 是 一 个 代词 。 但 是 ， 如 果 我 们 为 飞行 的 领域 
设计 一 个 语义 语法 ， 根 据 第 一 个 句子 ， 我 们 可 以 提出 这 样 的 语义 语法 
规则 : 
InfoRequest ^ when does Flight arrive in City . 

在 这 个 规则 的 右手 边 包 含有 两 个 表示 语义 的 非 终 极 符号 Flight (K 
7R APE”) 和 City (表示 “城市 ”) 。 根 据 这 个 规则 ， 我 们 就 可 以 直接 地 
判定 第 二 个 句子 中 的 it 是 Flight， 表 示 某 个 航班 。 

当然 ， 由 于 语义 语法 是 针对 具体 领域 而 设计 的 ， 它 的 概括 性 太 


弱 ， 对 于 领域 的 依赖 性 太 强 ， 因 此 ， 也 有 它 的 不 足 。 一 般 地 说 ， 语 义 
语法 的 缺点 是 : 


e 复 用 性 (reuse) 很 差 。 由 于 语义 语法 是 针对 特定 的 领域 而 设计 
的 ， 换 到 其 他 领域 束 寸 步 难 行 ， 几 乎 没有 复 用 性 。 


e 吵 是 在 一 个 单一 的 领域 内 ， 由 于 规则 太 具 体 ， 规 则 的 总 量 比较 
大 ， 随 着 领域 复杂 性 的 增加 ， 很 难 避 免 规 则 数量 的 增长 。 例 如 ， 我 们 
上 面 的 规则 


FoodType ^ Nationality FoodType 


对 于 Japanese food 是 适用 的 ， 可 是 对 于 Canadian food 束 不 一 定 适用 了 ， 
J Canadian 强调 的 是 “地 域 ” (Location) ， 而 不 是 “民族 风 
Uk" (Nationality) , Canadian food 表 示 的 意思 是 “加 拿 大 地 区 出 产 的 食 
品 ”， 而 不 是 “加 拿 大 风味 的 食品 ”>， 这 时 ， 我 们 势必 要 把 规则 
FoodType > Nationality FoodType 中 的 Nationality 改 为 Location ， 再 增加 
一 条 规则 : 


FoodType > Location FoodType 


这 样 一 来 ， 规 则 的 数量 将 会 大 量 增 加 。 


所 以 ， 我 们 在 使 用 语义 语法 时 ， 应 该 注意 到 它 的 这 些 局 限 性 。 
S SES 
3. 浅 层 语义 分 析 


除了 句法 驱动 的 语义 分 析 和 语义 语法 之 外 ， 还 可 以 采用 浅 层 语义 
分 析 (shallow semantic parsing) 的 方法 来 进行 自动 语义 分 析 。 这 种 浅 
层 语 义 分 析 需 要 首先 对 于 语料库 进行 语义 标注 ， 给 语 料 座 中 的 句子 标 
注 语义 角色 (semantic role) 信息 ， 例 如 ， 论 元 (argument) 信息 (如 
施 事 、 受 事 、 与 事 等 ) 和 说 明 语 (adjunct) 信息 (如 条 件 、 方 位 、 时 
间 、 方 式 、 目 的 、 结 果 等 ) ， 分 析 这 些 语义 角色 和 句子 中 谓词 的 关 
系 ， 束 可 以 换 示 出 句子 中 的 “请 词 论 元 结构 ”"， 然 后 通过 机 絮 学 习 的 方 
法 对 于 已 经 标注 了 语义 角色 信息 的 语料库 进行 训练 ， 获 取 关 于 语义 的 
统计 规则 ， 最 后 ， 使 用 这 些 规 则 对 于 新 输入 的 句子 进行 语义 标注 ， 残 
可 以 达到 语义 自动 分 析 的 目的 。 


这 样 的 浅 层 语义 分 析 是 在 语料库 的 基础 上 进行 的 ， 在 基于 语料库 
的 机 器 翻译 中 ， 可 以 使 用 这 种 方法 。 


BHT SRE 


早 在 20 世 纪 40 年 代 初 期 ， 结 构 主义 丹麦 学 派 的 代表 人 物 叶 尔 姆 斯 

列 夫 (L. Hjelmslev) 就 提出 了 义 素 分 析 法 (sememe analysis) 的 设 

想 。50 年 代 ， 美 国人 类 学 家 朗 斯 伯 里 (F.G. Lounsbury) 和 十 德 纳 夫 

(W.H. Goodenough) 在 研究 杂 属 词 的 含义 时 束 提 出 了 义 素 分 析 法 。60 

年 代 初 ， 美 国语 言 学 家 卡 效 〈J.J. Katz) 和 弗 托 提出 了 解释 语义 学 

(interpretive semantics) ， 将 义 素 分 析 法 引入 语言 学 中 ， 为 生成 转换 
语法 提供 语义 特征 。 


义 素 (sememes) 是 构成 意义 的 基本 要 素 ， 是 词 的 理性 意义 的 区 
别 特征 。 


词 的 理性 意义 是 一 束 语义 特征 的 总 和 ， 这 一 束 语义 特征 ， 就 是 义 
素 。 例 如 ， 汉 语 “ 哥 可 ”的 理性 意义 是 [eA] [+ 亲属 ] [+ 同胞 ] 
[+ 年 长 | [+A] 等 义 素 的 总 和 , “弟弟 ”的 理性 意义 是 [+ 人 | 
Lcx] [+ 同胞 ] [- 年 长 ] [+ 男性 | 等 义 素 的 总 和 , “姐姐 * 的 理 
性 意义 是 DA] [+ 亲属 | [+ 同胞 | [+ 年 长 ] |[- 男 性 ] 等 义 素 的 
总 和 ,“ 妹 妹 ” 的 理性 意义 是 [OA] [+ 亲属 | [+ 同胞 | 上- 年 长 | [上 
男性 | 等 义 素 的 总 和 。 在 义 素 的 标记 中 , “+? 表 示 肯 定 ,，“-” 表 示 表 示 
TE, LEK] 就 是 [+ 年 幼 | ， | 上 男性 | 就 是 [+ 女性 ] 。 


“哥哥 ”的 义 素 HEK] 是 与 弟弟 的 义 素 [- 年 长 ] 相 比较 而 言 
Hy, “哥哥 ”的 义 素 [+ 男性 ] 是 与 姐姐 的 义 素 [- 男 性 」 相 比 较 而 言 


的 。 英 语 中 表示 同胞 的 亲属 词 brother 没 有 长 幼 的 对 比 ，brother 既 可 表 
示 汉 语 的 “哥哥 "， 又 可 表示 汉语 的 “弟弟 "， 因 此 ， 英 语 也 就 没有 [+ 年 
长 | ^ | 年 长 | 这 样 的 义 素 。 壮 语 中 表示 同胞 的 亲属 词 没有 男女 的 对 
比 ， 因 此 ， 壮 语 也 就 没有 [+ 男性 | 、[- 男 性 ] 这 样 的 义 素 。 


一 组 词 的 义 素 可 以 用 义 素 和 矩阵 来 表示 ， 纵 坐标 表示 词 ， 横 坐标 表 
示 义 素 ， 纵 横 两 坐标 的 相交 点 上 注 以 “+、-” 号 。 


例如 ， 汉 语 中 表 同 胞 的 亲属 词 的 义 素 矩阵 如 下 : 


[A] [ 亲属 ] [ 同胞 ] [ 年 长 ] [ 男性 | 
哥哥 + + 4 十 十 
弟弟 十 十 十 一 十 
姐姐 十 十 十 十 一 
妹妹 十 十 十 一 一 


图 8.29 SCA FARE 


4 现代 汉语 词典 》 中 对 上 述 亲 属 词 的 释义 是 : 


哥哥 : 订 属 中 同 幸 而 年 纪 比 目 己 大 的 男子 。 


第 第 : 亲属 中 同 幸 而 年 纪 比 目 己 小 的 男子 。 


姐姐 : 杀 属 中 同 硬 而 年 纪 比 自己 大 的 女子 。 


妹妹 : 亲属 中 同 幸 而 年 纪 比 目 己 小 的 女子 。 


如 果 我 们 把 上 述 杀 属 词 的 义 素 矩阵 与 它们 在 《现代 汉语 词典 》 中 
的 释义 相 比 较 ， 束 可 以 看 出 ， 义 素 答 阵 反映 了 相应 杀 属 词 的 基本 语义 
特征 ， 它 们 与 词典 中 的 释义 是 彼此 对 等 的 。 


由 此 可 见 ， 义 系 分 析 法 是 语义 形式 化 描述 的 一 种 好 办 法 。 


在 义 素 矩 阵 中 ， 一 般 标 以 二 元 对 立 的 “+、-” 号 ， 但 有 时 二 元 对 立 


RE 


也 可 以 采用 别 的 标示 办 法 。 例 如 ， 美 国语 言 学 家 奈 达 (E.A. 


Nida) 在 分 析 英 语 中 的 run (EE) > walk GE) 等 七 个 表示 人 的 胶体 活 
BHAA Te XE, FH pA RAY CARRERE: 


总 有 一 胶 胶体 接触 地 接触 地 面 
接触 地 面 面 的 顺序 AY BC 

run 一 让 二 和 二 让 天 :2 2 

walk 十 beg 12 2 

hop 一 LSLS m= 1 

skip 一 ]-I-2-2 2 

jump - 2 

dance 十 变异 但 有 韵律 2 

crawl + 1-3-2-4 4 


图 8.30” 义 素 和 矩阵 


在 这 个 义 素 矩阵 中 ， [总 有 一 有 接触 地 面 ] 这 个 义 素 有 二 元 对 
立 ， 用 “+、-” 号 表示 ， [肢体 接触 地 面 的 顺序 |] 这 个 义 素 没有 二 元 对 
立 ， 用 “1-1-1-2”..…. 等 这 样 的 数目 字 表 示 , “1-2-1-2” 表 示 下 有 轮换 地 
动作 ， 先 左 脚 -后 右 脚 - 先 左 脚 - 后 右 脚 ， 或 者 先 右 脚 - 后 左 脚 - 先 右 脚 -后 
Zr; “1-1-1/2-2-2” 表 示 下 胶 不 轮换 地 动作 ; “1-1-2-2” 表 示 左 脚 右 脚 每 
两 次 轮换 地 动作 ; “1-3-2-4” 表 示 上 肢 和 下 肢 轮 换 地 动作 。 | 接触 地 面 


的 肢 数 | 


H o 


这 个 义 素 也 没有 二 元 对 立 ， 用 数字 表示 接触 地 面 的 胶体 的 数 


义 素 分 析 法 在 分 析 杀 属 词 、 军 衡 词 等 方面 获得 相当 可 观 的 成 绩 ， 
其 应 用 范围 正在 扩大 ， 然 而 ， 至 今 为 止 ， 还 没有 见 到 应 用 义 素 分 析 法 
来 全 面 当 地 分 析 茶 一 语言 的 整个 词汇 系统 的 成 果 。 


英语 词典 中 单词 的 的 定义 描述 ， 也 采用 了 这 样 的 义 妈 分 析 法 。 例 
如 ， 


boy=male child; woman=female adult 
girl=female child; child=young human 


man=male adult; adult=grown-up human 


从 这 些 定 义 中 可 以 很 容易 抽取 出 一 个 由 义 素 结 点 构成 的 “层级 体 
系 ” (hierarchical system) ， 每 个 结 点 都 与 一 些 特征 连接 ， 形 成 树 形 结 
构 (tree structure) 。 如 图 8.31 所 示 。 


human 
adult child 
(+adult) (—adult) 
man woman boy girl 
(*male) — (—male) (-male) — (—male) 


图 8.31 ” 义 素 组 成 的 树 形 结构 


图 8.31 的 树 形 结构 层级 中 ， 结 点 之 间 存 在 包含 的 关系 。 


所 谓 “ 包 含 关 系 ” 可 以 这 样 来 定义 : 概念 C1 包 强 概念 C2， 当 且 仪 当 
所 有 C1 的 属性 同时 也 都 是 C2 的 属性 时 。 但 是 C2 的 属性 未 必 都 是 Cl 的 
属性 。 根 据 这 个 定义 “adult (是 一 个 成 年 人 ) ”包含 “man (是 一 个 男 
A) ”， 因 为 所 有 “adult (成 年 人 ) ”的 属性 也 都 是 “man (BA) ”的 属 


性 ， 但 是 “male (男性 ) ”作为 “man (BA) ”的 属性 ， 却 未 必 一 定 
是 “adult (成 年 人 ) ”的 属性 。 


图 8.31 所 示 的 这 种 包含 关系 也 被 称 为 “分 类 体系 ” (classification 
system ) 。 在 一 个 分 类 体系 中 ， 包 含 关 系 具 有 传递 性 。 在 每 一 个 上 层 
结 点 的 特征 ， 都 可 以 传递 给 下 层 结 点 ， 被 下 层 结 点 以 默认 的 方式 继 
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APPA EREE RREAN: 某 一 个 类 的 定义 特征 为 这 个 
类 的 所 有 成 员 共 至 。 


boy 是 child 的 一 个 次 类 ， 因 此 boy 应 该 具有 所 有 child 的 特征 (否则 
一 个 boy 束 不 可 能 是 一 个 child) 。 根 据 图 8.31 中 的 树 形 结构 可 以 推演 
H: 一 个 boy 应 该 有 “+male” 和 “-adult” 的 特征 。 


在 特殊 情况 下 ， 某 些 特殊 的 次 类 可 能 会 “ 拦 继 ”(overwrite) 上 层 
万 点 的 属性 ， 例 如 penguin (ER) ”虽然 是 “bird ($) ”的 次 类 ， 但 
古 ， 却 不 能 飞 。 这 说 明 ， 树 形 结构 中 的 默认 继承 关系 还 是 有 缺陷 的 。 


图 8.31 中 的 树 形 结构 实际 上 也 是 很 多 现 有 的 知识 本 体 (ontology) 
的 结构 ， 在 很 大 程度 了 体现 了 人 人们 一 直 在 人 研究 的 知识 本 体 。 最 典型 的 
知识 本 体 的 例子 古 动 植物 的 分 类 体系 ， 这 样 的 分 类 体系 也 是 树 形 结 
构 。 


形式 化 的 概念 层级 体系 现在 正 趋 癌 于 越 来 越 复 杂 。 这 是 因为 现在 

的 概念 层级 体系 允许 多 重 分 类 和 多 重 继承 。 在 这 样 的 情况 下 ， 概 念 的 

层级 体系 束 不 再 是 一 个 树 形 结构 ， 而 是 一 个 相互 交织 的 网 络 

(netwrok) ， 甚 至 可 能 是 特征 的 置换 形成 的 网 格 (lattice) ， 如 图 8.32 
所 示 。 


top 


+human 二 male 一 adult 二 adult —male —human 


二 human +human +male +human +human +adult —human 一 adult +adult —human 
+male  —adult —adult +adult —male +male +male —male —male —male 


boy man girl woman 


图 8.32 ”网 格 结构 


在 图 8.32 中 ，adult 和 male 这 两 个 特征 分 别 变 成 了 +adult, -adult , 
+male 和 -male 四 个 特征 ， 它 们 提升 到 和 +human 和 -human 特 征 同 处 一 个 
层面 ， 这 些 特征 甚至 可 以 和 -human 特 征 结合 。 品 


这 样 的 网 格 结 构 有 一 些 优点 。 站 先 特征 都 是 互 不 相关 的 ， 除 非 我 
们 规定 两 个 特征 具有 互 不 的 性 质 (如 -male 和 +male) 。 这 样 所 有 彼此 
兼容 的 特征 都 可 以 结合 起 来 ， 用 来 定义 所 有 可 能 的 概念 形成 所 谓 “ 概 
念 化 产物 ”) 。 同 时 网 格 结构 也 以 显 式 的 方式 说 明 哪 些 特征 组 合 是 不 可 
能 的 。 


此 外 ， 图 8.32 中 网 格 结构 的 效率 高 于 图 8.31 中 的 树 形 结构 。 在 网 格 
结构 中 所 有 的 结 点 共享 male 这 个 特征 ， 但 是 在 树 结构 中 不 同 的 节点 需 
要 重复 引入 这 个 特征 (例如 adult 和 child 的 下 层 节 点 ) ， 这 可 能 会 导 
致 “ 多 重 分 义 定 义 ” (multiple divergent definition) 。 图 8.32 中 的 网 格 结 
构 不 会 将 一 个 和 层级 有 关 的 优先 顺序 强加 a 到 特征 上 ， 但 在 图 8.31 的 树 
形 结构 中 却 存 在 这 样 的 优先 顺序 human 特征 优先 于 adult，adult 优 先 
于 male。 但 是 ， 目 前 普通 人 还 难以 从 理论 上 解释 为 什么 会 存在 这 样 的 
优先 现象 。 


这 两 种 结构 的 另外 一 个 不 同 之 处 是 : 图 8.32 的 网 格 结构 中 可 以 存 
在 巨 量 的 内 部 特征 组 合 的 结 点 ， 但 是 这 些 结 点 在 人 们 的 概念 中 可 能 ; 
不 存在 ， 在 很 多 语言 中 也 没有 相应 的 表达 方式 。 树 形 结构 和 网 格 结构 
都 是 数学 结构 ， 比 较 抽象 ， 目 然 语言 中 的 词汇 体系 并 不 会 完全 遵循 网 
格 结构 的 规则 或 树 形 结构 的 规则 ， 虽 然 网 格 结构 可 以 生成 所 有 符合 逻 
辑 的 概念 ， 但 是 ， 在 目 然 语言 中 ， 仅 仅 那些 能 够 有 效 地 帮助 交际 的 概 
念 才 可 能 形成 词汇 ， 参 与 到 目 然 语言 的 词汇 体系 中 。 这 是 目 然 语言 与 
数学 结构 的 差异 。 我 们 在 目 然 语言 处 理 的 研究 中 ， 应 当 注 意 到 这 样 的 
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在 目 然 语 言 的 计算 机 处 理 中 ， 机 器 词典 的 建造 是 一 个 十 分 重要 的 
工作 。 机 融 词 典 也 束 是 电子 词典 ， 它 是 存 贮 在 磁盘 、 光 盘 、EPROM 
(可 探 可 编程 只 读 存 贮 器 ) 等 介质 上 可 由 计算 机 随意 访问 的 词典 ， 其 
中 要 存 贮 目 然 语 言 处 理 所 需 要 的 多 种 信息 ， 包 括 词 的 语音 信息 、 语 法 
言 息 和 语义 信息 。 在 机 器 词典 中 的 语义 信息 ， 通 常 是 用 直接 存 贮 每 个 
词 的 理性 意义 〈 义 项 ) 的 办 法 来 进行 的 ， 也 就 是 像 普通 词典 那样 ， 将 
每 个 词 条 对 应 的 概念 加 以 枚 举 和 解释 。 但 是 ， 用 这 样 的 办 法 不 仅 要 占 
用 巨大 的 存 贮 空间 ， 而 且 ， 也 难于 判别 同义词 、 近 义 词 在 理性 意义 上 
的 差别 ， 难 于 确定 词 与 词 之 间 的 搭配 关系 。 


如 有 果 采 用 义 素 分 析 法 来 建造 机 器 词典 ， 就 可 以 解决 这 些 问 题 。 


第 一 ， 由 于 在 机 絮 词 典 中 ， 词 条 不 再 以 词 的 义 项 来 存 贮 ， 而 是 以 
义 素来 存 迪 ， 束 可 以 使 用 较 少量 的 义 素 ， 对 大 量 的、 难以 穷尽 枚 举 的 
词义 作 形 式 化 的 搬 述 。 当 然 ， 由 于 义 素 要 代表 广阔 纷 紧 的 大 干 世界 ， 
它 的 数量 也 是 相当 大 的 。 运 今 为 止 ， 我 们 还 说 不 清 现 代 汉语 中 大 概 有 
多 少 个 义 素 ， 这 个 问题 的 解决 还 有 每 时 日 。 从 实用 的 目的 出 发 ， 在 目 
然 语言 处 理 系统 中 ， 我 们 可 以 建立 不 同 领域 、 不 同 用 途 的 义 素 系统 ， 


可 以 根据 有 关 的 要 求 逐 步 从 概念 中 分 解 出 义 素 ， 也 可 以 采用 目标 驱动 
的 途径 来 试探 性 地 建立 义 素 系统 。 在 建立 义 素 系统 时 ， 我 们 应 该 注意 
到 义 素 的 明晰 性 、 联 系 性 、 完 备 性 、 吻 解释 性 、 易 理解 性 以 及 经 济 性 
等 原则 。 


第 二 ， 通 过 对 机 器 词典 中 不 同 义 素 集 合 内 的 各 个 义 素 的 分 析 比 
较 ， 计 算 机 可 以 比较 容易 地 找 出 不 同 单词 在 词义 上 的 细微 差别 。 


例如 ， 用 义 素 分 析 法 ， 汉 语 中 的 “陆军 、 海 军 、 空 军 ” 三 个 词 的 义 
ASAP: 


陆军 : [军队 | ( [在 陆地 ] [作战 的 ] }f{ [通常 由 .…… 组 成 | 
[步兵 ] Dem] [RFR] [TER] HER] 各 [专业 部 队 |] } 


海军 : [EU] { [在 海上 ] [作战 的 ] }f{ 1 通常 由 .…… 组 成 | 
[水 面 舰艇 |] | 潜艇 | | 海军 航空 兵 ] [海军 陆 战 队 |] } 各 [专业 部 
AI 


空军 : [EM] { [在 空中 ] [作战 的 ] }f{ [通常 由 .…… 组 成 | 
各 [航空兵 部队 | [空军 地 面部 队 | ) 


在 上 面 的 三 个 义 素 表 达 式 中 ， 义 素 写 在 方 括号 内 ， 同 一 类 型 或 相 
互 配 合 的 义 素 写 在 同一 花 括 弧 里 。f 是 结构 式 的 标志 ， 意 思 是 “适用 范 
围 ”。“ 各 ”不 是 一 个 义 素 ， 而 是 一 个 标志 ， 它 表示 被 标志 的 义 素 可 以 分 
解 为 看 干 同 类 的 义 素 。 


从 上 述 的 义 素 表 达 式 中 ， 我 们 可 以 清楚 地 看 出 , BF” 
军 ”\“ 空 军 ” 这 三 个 词 的 共同 点 是 ， 它 们 都 有 [军队 ] [作战 的 ] 等 义 
素 ， 不 同 点 是 : 


QD 它们 的 作战 地 域 不 同 ， 陆军 的 义 素 为 [在 陆地 ] ， 海 军 的 义 素 
为 [i E] ， 空 军 的 义 素 为 [在 空中 | ; 


它们 的 组 成 不 同 ， 陆 军 的 义 素 为 { [通常 由 .….. 组 成 ] | 步兵] 
[炮兵 | RPR] [TÆR] [AER] 各 [专业 部 队 ] }， 海 军 的 
义 素 为 { [通常 由 .…… 组 成 | [水 面部 队 | [潜艇 | | 海军 航空 兵 ] 
[海军 陆 战 队 」 各 [专业 部 队 」] }， 空 军 的 义 素 为 { [通常 由 .…… 组 
成 | 各 [航空 兵部 队 |] | 空军 地 面部 队 | pe 


又 如 ， 汉 语 的 “ 手 ? 和 *“ 脚 "两 个 词 的 义 素 表达 式 力 : 


F: [aB] [人体 的 ] { Lie...) DER 的 [末端 ] } 
[能 使 用 工具 | 


BI. = Lee] LAA] € [het] LER] 的 [末端 | } 
[能 行动 | 


其 中 ， 义 素 间 的 “的 ?是 表示 领 属 关 系 的 标志 。 


从 它们 的 义 素 表达 式 中 可 以 看 出 ,，“ 手 ”和 “ 脚 ” 这 两 个 词 的 共同 点 
: 它们 都 有 [器官 ] LAP] 等 义 素 。 


ail 


DERE: 


中 它们 的 位 置 不 同 ,“ 手 ”的 义 素 为 { Lier...) [ER] 的 
[末端 ] },“ 脚 ”的 义 素 为 { [位 于 ..……...] LEB 的 | 末端 | }; 


(它们 的 功能 不 同 ,，“ 手 ”的 功能 是 [能 使 用 工具 | ， 脚 的 功能 是 
[能 行动 ] 。 


Hl > “ 炸 *、“ 前 "四 个 词 的 义 素 表 达 式 为 ， 
b: [- 用 水 ] [- 油 量 大 ] [+ 不 断 翻动 ] Comer] 


MB: |- 用 水 ] [- 油 量 大 ] [+ 不 断 翻 动 ] [+ 加 淀粉 汁 ] 


KE: LAK] |+ 油 量 大 | 上 -不断 翻动 | 


RU: [-HDK] [AREK] |[- 不 断 翻动 | 


SENAY MARIA TUE DAE, K” > oR > "KE" "HüUIXQUT 
词 的 共同 点 是 [- 用 水 ] . Hee REY AAD o. AT 
是 :“ 炒 ”`、“ 炮 ”`、“ 前 ?的 用 油 量 不 大 〈 |- 油 量 大 |] ) ， 而 “ 炸 * 的 用 油 
量 大 〈 [RREK] ) ，“ 炒 ?和 “和 燃 " 要 不 断 翻 动 ( [+ 不 断 翻动 ] ) ， 
而 “ 炸 ” 和 “前 ”不 要 不 断 翻 动 〈【 | -不 断 翻 动 ) ，“ 炒 ”时 不 加 淀粉 汗 (上 上- 
加 淀粉 汗 ] ) ，“ 焰 ?时 要 加 演 粉 并 〈 [+ 加 淀粉 汁 ] } 。 


由 于 义 素 表达 式 是 词义 的 一 种 形式 化 的 表示 ， 因 而 计算 机 易于 找 
出 单词 在 词义 上 的 不 同 点 ， 发 现 它 们 的 细微 差别 。 


第 三 ， 通 过 义 素 分 析 法 ， 计 算 机 可 以 了 解 到 词 与 词 搭配 时 在 语义 
上 要 受到 什么 样 限制 。 


例如 , “说话” 和 “ 想 ” 这 两 个 词 的 义 素 表达 式 中 ， 痢 要 求 动 作 发 出 
者 具有 [A] 这 个 义 素 ， 而 “椅子 "和 “ 鱼 * 这 两 个 词 的 义 素 表达 式 中 ， 
都 不 包含 [+A] 这 个 义 素 ， 因 此 ， 在 一 般 情况 下 , ATER, “A 
在 说 话 ” 这 样 的 句子 在 语义 上 是 不 能 成 立 的 ， 尽 管 它们 在 语法 上 是 正确 
的 。 这 将 有 助 于 计算 机 判断 句子 在 语义 上 是 否 合理 。 


当然 ， 在 一 定 条 件 下 ， 例 如 ， 在 童话 故事 中 ， 不 包含 [+ 人 | 这 
个 义 素 的 “椅子 "和 “ 鱼 ”， 也 可 以 与 “说 话 *" 和 “ 想 ” 连 用 。 这 时 ,“ 椅 子 在 
想 ”,，“ 鱼 在 说 话 ” 这 样 的 句子 在 语义 上 也 就 可 以 成 立 了 。 不 过 ， 这 只 是 
在 童话 中 为 了 特定 的 目的 使 < 椅子 * 和 “和 鱼 ” 临 时 地 获得 了 [A] 的 义 
素 ， 在 一 般 情 况 下 并 不 能 这 样 做 。 有 时 ， 为 了 达到 修辞 的 效 采 ， 可 以 
把 动物 比喻 为 人 ， 我 们 说 “黄河 在 吃 哮 ”， 使 非 动物 的 “黄河 ?临时 地 获 
得 了 [+ 动物 | 这 一 义 素 ， 我 们 说 “黄鼠狼 给 鸡 拜 年 ”， 使 动物 “ 黄 鼠 
狼 ” 临 时 地 获得 了 [+ 人 |」 这 一 义 素 。 这 种 情况 叫做 “ 隐 
喻 ”(metaphor) 。 但 是 ， 在 通常 的 情况 下 ， 我 们 并 不 能 这 样 做 。 隐 喻 
存在 的 这 些 事实 并 不 足以 否定 词语 在 组 合 时 必须 有 一 定 的 语义 限制 。 
因而 我 们 对 于 词语 在 组 合 时 的 语义 限制 仍然 是 必要 的 和 有 效 的 。 


不 过 ， 我 们 对 于 隐喻 也 不 能 掉以轻心 。 隐 蛤 是 目 然 语言 中 普遍 存 
在 的 一 种 现象 ， 这 种 现象 一 直 是 修辞 学 (rhetoric) 人 研究 的 重要 内 容 。 
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具体 直观 的 、 比 较 容易 理解 的 概念 ， 而 “历史 发 展 的 轨迹 * 则 是 抽象 
的 、 不 太 容 易 理解 的 概念 。 通 过 “和 车轮 ”这 样 的 隐喻 ， 我 们 对 于 “历史 发 
展 的 轨迹 ”这 样 比 较 抽 和 象 的 、 不 太 容 易 理 解 的 概念 获得 了 更 加 明确 的 、 
更 加 形象 的 认识 。 


在 修辞 学 中 ， 隐 喻 作为 一 种 * 辞 格 ”， 一 个 完整 的 隐喻 一 般 由 “ 喻 
体 "” 和 "本 体 "两 部 分 构成 ， 喻 体 通 单 是 我 们 熟悉 的 、 比 较 具 体 直观 的 、 
比较 容易 理解 的 一 些 概念 范畴 ， 本 体 则 是 我 们 后 来 才 认 识 的 、 抽 象 
的 、 不 太 容 易 理 解 的 概念 范畴 。 在 我 们 上 面 的 例子 中 , “车 轮 ? 融 是 喻 
体 ,，“ 历 史 发 展 的 轨迹 ” 整 是 “本 体 ”。 


在 认 知 语言 学 (cognitive linguistics) 中 ， 喻 体 叫 做 “ 始 源 
域 ”(source domain) ， 本 体 叫 做 “目标 域 ” (target domain) 。 在 我 们 
上 面 的 例子 中 , “车 轮 ? 束 是 始 源 域 , “历史 发 展 的 轨迹 ”就 是 目标 域 。 
隐喻 的 认 知 力量 就 在 于 将 始 源 域 的 图 式 结构 映射 到 目标 域 上 ， 使 人 们 
通过 始 源 域 的 图 式 结构 ， 对 于 目标 域 得 到 更 加 清晰 的 认识 。 因 此 ， 认 
知 语言 学 认为 ， 隐 喻 不 但 是 一 种 修辞 手段 ， 而 且 还 是 人 的 一 种 思维 方 
式 ， 隐 喻 普 遇 地 存在 于 人 们 的 各 种 认 知 活动 中 。 


就 是 在 以 严 齐 著称 的 科学 技术 的 术语 (term) 中 ， 也 存在 着 隐 


喻 。 


术语 是 人 类 科学 知识 在 目 然 语 言 中 的 结晶 ， 和 是 人 类 认 知 活动 的 重 
要 产物 。 因 此 ， 在 术语 中 ， 当 然 也 应 当 存 在 着 隐喻 。 通 过 隐喻 的 “ 始 源 
域 ”帮助 人 们 更 加 清晰 地 认识 “目标 域 "， 应 当 是 术语 命名 的 一 种 重要 方 
ps 


下 面 ， 我 们 以 计算 机 科学 中 的 术语 为 例子 ， 来 说 明 隐 喻 在 术语 命 
名 中 的 作用 。 


计算 机 科学 中 的 “防火 墙 ” (fire wall) 这 个 术语 ， 就 是 使 用 隐喻 命 
名 的 术语 。 它 的 始 源 域 是 指 建筑 物 中 用 于 防止 火灾 的 墙 ， 它 的 目标 域 
征 指 置 于 因特网 和 用 户 设备 之 间 的 一 种 安全 设施 ， 通 过 识别 和 信 选 ， 
防火 墙 可 以 阻止 外 部 未 被 授权 的 或 具有 潜在 破坏 性 的 访问 。 计 算 机 科 
学 中 本 来 没有 真实 的 具体 的 “防火 墙 *， 通 过 “防火 墙 * 这 个 始 源 域 ， 人 
们 可 以 更 加 清楚 地 理解 < 置 于 因特网 和 用 户 设备 之 间 的 一 种 安全 设 
施 ” 的 这 个 抽象 的 概念 范畴 。 


计算 机 科学 中 的 “病毒 ” (virus) 这 个 术语 ， 它 的 始 源 域 是 : 比 病 
梢 更 小 的 病原 体 ， 没 有 细胞 结构 ， 但 有 遗传 、 变 异 等 生命 特征 ， 一 般 
能 通过 阻挡 细菌 的 过 滤器 ， 多 用 电子 显微镜 才能 看 见 。 而 它 的 目标 域 
We: 一 种 有 害 的 、 起 破坏 作用 的 程序 。 通 过 “病毒 "这 个 始 源 域 ， 人 
们 可 以 认识 到 ， 一旦 在 计算 机 运行 “病毒 * 这 种 程序 ， 计 算 机 就 会 像 生 
物 染 上 了 病毒 一 样 ， 给 用 户 市 来 灾难 。 


计算 机 科学 中 的 “ 树 ”(tree) 这 个 术语 ， 它 的 始 源 域 是 : 木 本 植物 
的 通称 。 而 它 的 目标 域 则 是 : 计算 机 算法 中 表示 结 点 之 间 的 分 校 关系 
的 一 种 非 线性 的 结构 。 通 过 “ 树 ” 这 个 始 源 域 ， 人 们 可 以 把 这 种 抽象 的 
非 线 性 结构 想象 成 目 然 界 中 的 树 ， 从 而 对 这 个 概念 获得 更 加 清晰 的 理 
解 。 


在 计算 机 科学 中 ， 像 这 样 使 用 隐喻 来 命名 的 术语 还 很 多 ， 例 
如 ,“ 槽 、 网 络 、 桌 面 、 回 收 站 ”等 等 。 


我 在 《现代 术语 学 引 论 》 岂 中 指出 ， 术 语 的 命名 应 当 遵循 准确 
性 、 单 义 性 、 系 统 性 、 语 言 的 正确 性 、 简 明 性 、 理 据 性 、 稳 定性 、 能 
产 性 等 原则 。 


使 用 隐喻 的 方法 来 给 术语 命名 ， 与 这 些 原则 古 不 是 矛盾 呢 ? RA 
为 并 不 矛盾 。 因 为 隐喻 是 人 类 的 一 种 重要 的 思维 方式 ， 在 术语 命名 中 
当然 也 应 该 使 用 这 样 的 思维 方式 ， 使 用 隐喻 来 给 术语 命名 ， 不 仅 与 这 
些 原 则 不 矛盾 ， 而 且 能 够 更 好 地 实现 这 些 原 则 。 


前 几 年 学 术 界 在 讨论 计算 机 科学 中 “菜单 ”(menu) 这 个 术语 的 时 
候 ， 一 些 学 者 提出 ， 计 算 机 科学 中 的 “菜单 ”这 个 术语 中 并 没有 “ 沫 ”， 
与 事实 不 符 ， 因 此 ， 他 们 强烈 地 反对 使 用 “菜单 ”这 个 术语 ， 主 张 使 


用 “选单 ”来 代 奉 “表单 *。 后 来 ， 全 国 科学 技术 名 词 审定 委员 会 也 大 力 
f] "eR" OSEE FH SER" ^ 可 是 ， 在 大 多 数 计算 机 用 户 中 ,，“ 菜 
单 ” 这 个 术语 仍然 广 为 使 用 ， 而 “选单 ”这 个 术语 却 很 难 推广 。“ 有 菜 
单 ”(menu) 这 个 术语 的 始 源 域 是 : 记录 经 过 亮 调 供 下 饭 或 下 酒 的 牙 
染 、 鱼 肉 等 的 单子 。 而 它 的 目标 域 则 是 : 由 者 干 可 供 选 择 的 项 目 组 成 
的 表 。 在 计算 机 显示 屏 上 显示 出 来 的 菜单 ， 用 户 可 以 用 光标 来 选择 ， 
忠 像 人 们 在 吃饭 的 时 候 点 菜 一 样 方便 。 使 用 隐喻 方法 命名 的 “表单 ”这 
个 术语 ， 准 确 、 鲜 明 、 和 生动， 符合 术语 的 命名 原则 ， 所 以 它 才 为 广大 
用 户 喜 闻 乐 见 ， 始 终 没有 被 全 国 科学 技术 名 词 审定 委员 会 大 力 推 广 
的 “选单 "这 个 术语 所 和 奉 代 。 


这 种 情况 说 明 ， 在 术语 的 命名 中 ， 我 们 不 能 拒绝 使 用 隐喻 这 种 重 
要 的 方法 。 隐 喻 是 人 类 重要 的 思维 方式 ， 在 术语 命名 中 不 能 避 开 这 种 
重要 的 思维 方式 。 


既然 在 术语 命名 中 不 能 忽视 隐喻 ， 那 么 ， 在 目 然 语 言 处 理 中 ， 当 
然 束 更 不 能 名 视 隐 喻 了 。 目 前 。 我 们 在 隐喻 的 目 然 语言 处 理 方面 ， 已 
经 取得 了 初步 的 成 绩 。 


BIN ”语义 场 


要 进行 某 种 语言 的 义 素 分 析 ， 首 先 要 求 对 该 语言 的 词汇 体系 建立 
起 “语义 场 ” (semantic field) ° 


“语义 场 ”* 这 一 术语 是 德国 学 者 伊 普 森 (G. Ipsen) 于 1924 年 提出 来 
的 。20 世 纪 30 年 代 初 ， 另 一 位 德国 学 者 特 里 尔 (J. Trier) 提出 了 系统 
的 语义 场 理论 。 特 里 尔 的 学 生 魏 斯 盖 尔 伯 (L. Weisgerber) 在 30 年 代 


兽 与 特 里 尔 合作 进行 研究 ， 第 二 次 世界 大 战 之 后 ， 他 又 继续 研究 语义 
场 理论 ， 但 是 。 在 20 世 纪 30 年 代 和 40 年 代 ， 语 义 场 理论 影响 是 很 有 限 
的 。 到 了 20 世 纪 50 年 代 ， 午 姆 斯 基 提 出 了 转换 生成 语法 ， 美 国人 类 学 
家 又 提出 了 义 素 分 析 法 ， 语 义 场 理 论 才 引 起 普遍 的 关注 。 


近年 来 ， 我 国学 者 也 开始 研究 汉语 的 语义 场 。 


北京 大 学 贾 彦 德 教授 在 《汉语 语义 学 》 国 (1992 年 ) 一 书 中 ， 系 
统 地 提出 了 汉语 的 语义 场 理 论 。 北 泵 语言 大 学 语言 信息 处 理 研 究 所 张 
普 教 授 在 前 人 研究 的 基础 上 ， 结 合 目 然 语言 计算 机 处 理 的 实际 ， 提 出 
了 “ 场 型 的 概念 ， 进 一 步 深化 了 对 汉语 语义 场 的 研究 。 


“ 场 ” 原 是 物理 学 术语 ， 如 电场 、 伍 场 、 引 力 场 等 。 物 理 场 即 相 互 
作用 场 ， 是 物质 存在 的 基本 形态 之 一 。 场 要 占 一 定 的 空间 ， 具 有 空间 
性 ， 后 来 进一步 引申 为 分 布 着 某 一 物理 量 或 数学 函数 的 空间 区 域 本 
身 ， 不 一 定 有 物质 存在 的 形式 ,，“ 场 ”的 概念 进一步 虚 化 了 ， 但 仍然 具 
有 空间 性 。 


语义 场 古 词义 形成 的 系统 ， 它 是 基于 概念 的 关系 场 ， 是 词义 与 词 
义 之 加 构成 的 一 种 完全 虚 化 的 、 非 物质 的 空间 领域 。 语 义 场 的 空间 性 
体现 为 构成 词义 的 义 素 的 分 布 情况 。 词 义 总 是 在 语义 场 中 与 其 它 词义 
发 生 相互 作用 的 。 通 俗 地 说 ， 寿 干 个 意义 上 紧密 相 联 的 词义 ， 通 肖 归 
属于 一 个 总 称 之 下 ， 束 构成 了 语义 场 。 


语义 场 可 以 进一步 分 为 词汇 场 (lexical field) 和 联想 场 
(associative field) 。 词 汇 场 是 静态 的 ， 它 表现 为 词义 与 词义 之 则 的 聚 
BRA; 联想 场 是 动态 的 ， 它 表现 为 词义 与 词义 之 间 的 组 合 天 系 。 我 
们 在 本 节 中 讲 的 语义 场 主要 是 词汇 场 ， 为 了 称呼 上 的 方便 ， 在 不 妨碍 


读者 理解 时 ， 我 们 把 词汇 场 简称 为 语义 场 。 至 于 联想 场 ， 我 们 将 在 语 
义 网 络 这 一 节 中 进一步 说 明 。 


词汇 场 是 静态 的 语义 场 ， 这 种 语义 场 中 ， 语 义 与 语义 之 间 的 关系 
是 各 种 类 聚 关 系 。 下 面 古 按 词 义 分 出 的 各 种 语义 场 。 
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这 些 语义 场 还 可 以 进一步 细 分 。 例 如 ,， “亲属 场 " 可 按 “ 直 系 >”、“ 旁 
系 ”、“ 父 系 ” 等 天 系 进 一 步 细 分 ， 形 成 更 小 的 语义 场 ， 细 分 后 而 形成 的 
语义 场 称 为 “ 子 场 ”， 不 能 再 进一步 细 分 的 子 场 ， 称 为 “小子 场 ” 这 些 
语义 场 也 可 以 进一步 概括 与 合并 。 例 如 , “动物 场 *、“ 植 物 场 ”可 进 一 
步 概括 为 "生物 场 ”， 概 括 后 形成 的 语义 场 称 为 " 母 场 ”。 


不 同类 型 的 语义 场 称 为 场 型 。 汉 语 中 主要 的 场 型 如 下 : 


1. 分 类 场 型 


分 类 场 型 中 ， 处 于 同一 语义 场 的 各 个 词义 都 是 指 同 一 类 事物 、 运 
动 或 性 状 。 分 类 场 型 一 般 是 多 层次 的 。 例 如 ， 下 面 表示 印刷 术 的 语义 
场 束 是 一 种 分 类 场 型 : 


印刷 术 
印 版 印刷 计算 机 印刷 
a 
凸版 印刷 ”平版 印刷 。 四 版 印刷 打印 油光 照排 
P ud 
直接 凸版 印刷 PE hh EN 针 式 打印 ” 喷 墨 打印 ”激光 打印 


? o | P NR c 
书刊 印刷 茶 胺 印刷 ”活字 印刷 9 针 打 印 ”16 针 打印 。 24 针 打印 
图 8.33 ”分 类 场 型 


在 语义 场 中 ， 上 一 层 的 词义 称 为 上 位 ， 下 一 层 的 词义 称 为 下 位 。 
双方 紧 连 的 上 位 称 为 直接 上 位 ， 双 方 紧 连 的 下 位 称 为 直接 下 位 ， 最 下 
层 的 词义 不 再 合 有 更 小 的 词义 ， 称 为 底 位 ， 最 上 层 的 词 没 有 上 位 ， 成 
为 顶 位 。 同 一 层次 的 词义 称 为 平 位 。 同 一 概念 的 奉 干 个 词义 变 体 称 为 
同位 。 例 如 ， | 妻子 | ^ [RA] ^ [Z8] 是 同位 ， 其中， [2 
Fl 是 这 个 词义 的 主 位 ， [RA] 、 [EZ] 是 这 个 词义 的 变 位 。 


分 类 场 型 的 词义 关系 有 如 下 特点 : 


第 一 ， 上 下 词义 之 间 存 在 着 领 属 关 系 。 上 位 表示 语义 场 的 领域 ， 
下 位 表示 该 领域 中 的 分 类 ， 处 于 中 间 层 次 的 词义 ， 既 是 其 上 位 的 分 
类 ， 又 是 其 下 位 的 领域 。 例 如 ， 在 图 8.31 中 , “印刷 术 ?” 是 上 位 词义 ， 
且 处 于 顶 位 ， 它 表示 这 一 语义 场 的 领域 是 “印刷 术 ”,“ 喷 丢 打 印 ?” 是 下 
位 词义 ， 且 处 于 展位 ， 它 表示 "* 喷 琶 打 印 ? 和 是 “印刷 术 ” 的 一 个 小 类 


别 。“ 印 版 印刷 ”是 处 于 中 间 层 次 的 词义 ， 它 是 其 上 位 词义 “印刷 术 ” 的 
一 个 类 别 ， 又 是 其 下 位 词义 的 领域 ， 因 而 “凸版 印刷 *”、“ 平 板 印 
刷 、“ 四 版 印刷 ”者 属于 “ 印 版 印刷 ”这 一 领域 。 


第 二 ， 下 位 可 以 继承 上 位 的 基本 义 素 。 例 如 ,，“ 针 式 打 印 ”、“ 喷 礁 
TT EN” “激光 打印 ?者 是 继承 了 上 位 “打印 ?的 基本 义 素 ;“ 打 印 ” 和 * 激 
光照 排 ?都 是 “计算 机 印刷 ”， 它 们 继承 了 上 位 "计算 机 印刷 ”的 基本 义 
R: 而 “计算 机 印刷 * 和 “ 印 版 印刷 * 都 是 “印刷 术 ”， 它们 继承 了 上 位 “ 印 
刷 术 ”的 基本 义 素 。 在 分 类 场 型 中 ， 越 是 上 层 的 词义 ， 共 同 义 素 越 少 ， 
越 是 下 层 的 词义 ， 素 计 继 承 的 共同 词义 越 多 ， 越 是 上 层 的 词义 ， 所 合 
的 领域 越 大 ， 越 是 下 层 的 词义 ， 所 含 的 领域 越 小 ， 克 位 不 再 构成 新 的 
语义 场 ， 它 所 在 的 语义 场 称 为 最 小 子 场 ， 顶 位 所 在 的 母 场 称 为 最 大 母 
场 。 


2. 构件 场 型 


构件 场 型 也 是 一 种 基本 场 型 。 在 构件 场 型 中 ， 处 于 同一 语义 场 的 
各 个 词义 不 是 指 同一 类 的 事物 、 运 动 或 性 状 ， 任 何 下 位 都 是 其 上 位 的 
一 个 构件 。 构 件 场 型 也 是 有 层次 的 。 例 如 ， 下 面 表 示 “ 汽 车 ”的 结构 的 
语义 场 承 是 一 种 构件 场 型 : 


Ek PH ”车轮 驱动 总 成 底盘 车 尾 


发 动机 齿轮 箱 差 动 齿轮 
图 8.34 ”构件 场 型 


构件 场 型 的 词义 关系 具有 如 下 的 特点 : 


第 一 ， 上 位 和 下 位 之 间 是 整体 和 构件 的 和 关系。 上 位 表示 一 个 整 
体 ， 下 位 表示 整体 的 构件 。 例 如 ， 上 位 词义 “汽车 ”表示 一 个 整体 ， 下 
位 词义 “齿轮 箱 ” 表 示 这 个 整体 中 的 一 个 构件 。 处 于 中 间 层 次 的 词义 ， 
既是 上 位 词义 的 构件 ， 又 是 下 位 词义 的 整体 。 例 如 ， 处 于 中 间 层 次 的 
词义 “驱动 总 成 ”， 征 上 位 词义 “汽车 ”的 构件 ， 又 是 下 位 词义 “发 动 
DL” > “FOF” ^ EDA e IE 


第 二 ， 在 构件 场 型 中 ， 不 是 下 位 继承 了 上 位 的 义 素 ， 而 是 上 位 抽 
取 下 位 的 某 些 义 素来 集成 。 例 如 ,， “建筑 物 ” 由 “ 门 ? 和 * 窗 ?组 成 ， 构 
件 “ 门 * 有 [BA] 和 [闭锁 ] 等 表示 功能 的 义 素 ,构件 “ 窗 ”* 有 DE 
6) 和 | 透气 | 等 表示 功能 的 义 素 ， 因 而 “建筑 物 * 可 以 从 其 下 
位 “ 门 * 和 “ 窗 ” 中 抽取 [出 入 | 、 [BIER ^ [采光 | + | 透气 | SEX 
示 功 能 的 义 素 集 成 为 目 己 的 义 素 。 当 然 ， 并 不 是 一 切 表 示 功 能 的 义 素 
都 可 以 这 样 从 下 位 构件 传递 到 顶 位 。 例 如 ， 在 “建筑 物 ” 中 有 “灯泡 ”这 
个 构件 ， 但 是 构件 “灯泡 ”中 表示 功能 的 义 素 [发 光 | 并 不 能 传递 到 顶 
位 “建筑 物 ” 而 作为 "建筑 物 ” 的 一 个 表示 功能 的 义 素 。 可 以 传递 到 顶 位 
的 表示 功能 的 义 素 应 该 是 下 位 构件 中 最 重要 的 义 素 。 可 见 ， 整 体 的 功 
能 可 以 从 构件 的 功能 中 抽取 ， 但 并 不 等 于 其 构件 的 功能 的 总 和 。 构 件 
场 型 中 上 位 义 素 与 下 位 义 素 之 间 的 关系 是 错综复杂 的 ， 还 有 答 我 们 进 
行 深入 的 研究 。 


3. 有 序 场 型 


分 类 场 型 和 构件 场 型 是 基本 场 型 ， 而 有 序 场 型 不 是 基本 场 型 。 有 
序 场 型 是 基于 分 类 场 型 和 构件 场 型 的 一 种 特殊 场 型 。 在 有 序 场 型 中 的 
所 有 平 位 都 是 有 序 的 ， 它 们 除 分 别 具 有 分 类 场 型 或 构件 场 型 的 上 位 与 
下 位 之 间 的 传递 关系 之 外 ， 在 平 位 之 间 还 存在 着 顺序 关系 。 这 种 | i 
H ARMEE - 281A] O EXE + EE + ER ^ SET o DU, 
类 场 型 “军衔 ”的 下 位 结 点 “少尉 、 中 尉 、 上尉、 大 尉 、 少 校 、 中 校 、 
校 、 大 校 、 少 将 、 中 将 、 上 将 、 大 将 、 元 是 ”有 着 严格 的 等 级 顺序 。 


m 


具有 顺序 场 型 的 词义 关系 的 特点 如 下 : 


， 同 一 层次 的 词义 排列 是 有 序 的 ， 这 一 有 序 关系 反映 了 客观 
电 界 的 有 入 性 。 例如， 反映 时 间 上 顺序 的 PARA 秋 、 冬 "是 
有 序 的 ，“ 夏 "之 前 为 “ 春 "，“ 夏 "之 后 为 “ 秋 ”。 


第 二 ， 一 些 有 序 的 词义 是 封闭 型 的 ， 封 闭 型 的 词义 可 以 循环 。 例 
如 ， 一 年 四 季 “ 春 、 夏 、 秋 、 冬 ”十 周 而 复 始 、 循 环 不 已 的 ， 既 没有 开 
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第 三 ， 一 些 有 序 的 词义 是 非 封 财 型 的 ， 非 封 财 型 的 词义 不 可 以 循 
环 。 例 如 ， 表 示 学 位 的 词义 < 学士、 硕士 、 博 士 ” 是 非 封 闭 型 的 ， 学 海 
无 涯 ， 学 无 止境 ， 不 可 循环 。 


4. 对 立场 型 


对 立场 型 也 不 是 基本 场 型 ， 而 是 一 种 特殊 场 型 。 在 对 立场 型 中 ， 
平 位 的 词义 之 间 存 在 着 对 立 关 系 。 例 
M, BPA, JPAK, PASE, EAE, BAA” 


等 等 。 这 种 对 立 可 表现 在 性 质 、 状 态 、 运 动 方 同 、 运 动 结果 、 所 处 
位 置 、 所 处 时 间 等 方面 的 义 素 对 立 。 例 如 ,“ 硬 ”和 “ 软 ” 是 性 质 的 对 
立 ,，“ 进 "和 “ 退 ” 是 运动 方向 的 对 立 ,“ 生 ”和 “ 死 * 是 生命 的 开始 和 结 
束 ， 是 运动 所 处 的 时 间 的 对 立 。 


对 立场 型 的 特点 是 : 


第 一 ， 一 些 对 立场 型 中 的 乎 位 只 是 两 个 ， 非 此 即 彼 ， 不 存在 中 间 
状态 。 这 种 对 了 立 叫 做 相反 对 立 。 如 “ 开 ” 和 “ 关 ”， 不 是 “ 开 ”， 束 
是 “ 关 ”， 不 存在 中 间 状 态 ,“ 生 * 和 “有 死 ”?"， 不 是 “ 生 ”， 就 是 “ 死 *"， 也 不 存 
在 中 间 状 态 。 


第 二 ， 一 些 对 立场 型 的 平 位 不 只 两 个 ， 互 相对 立 的 两 个 平 位 处 于 
平 位 串 的 两 极 ， 它 们 之 间 还 存在 着 中 间 状 态 ， 这 种 对 立 叫 做 两 极 对 
立 。 例 如 ,“ 进 ?和 "“ 退 ”， 中 间 有 不 进 不 退 的 * 停 "这 种 状态 。 


5. 同 义 场 型 


同 义 场 型 是 一 种 特殊 场 型 。 在 同一 场 型 中 ， 同 位 和 变 位 的 理性 意 

义 是 完全 相同 的 ， 只 是 附属 于 理性 意义 的 风格 、 色 彩 等 方面 的 义 素 不 
一 样 。 例 如 ,， “HERA S. ARB SOBRE”, E> + 
人 "与 “老婆 "等 。 


严格 地 讲 ， 同 义 场 型 只 是 涉及 同位 和 变 位 的 关系 ， 它 还 不 能 成 为 
一 种 独立 的 场 型 。 


上 述 这 些 不 同 的 场 型 组 成 了 语义 总 场 。 在 语义 尽 场 中 ， 场 与 场 之 
间 的 关系 主 要 有 以 下 几 种 类 型 : 


1. RERA 


大 的 分 类 场 型 之 下 般 套 着 小 的 分 类 场 型 ， 大 的 构件 场 型 之 下 藤 套 
着 小 的 构件 场 型 。 例 如 ， 分 类 场 型 “生物 场 ” 之 下 ， 藤 套 着 小 的 分 类 场 
AU" grs" ATA". “动物 场 ? 之 下 又 舱 套 着 更 小 的 分 类 场 
BeBe «ee se ste iy, PRA eS, NE 
BOK” > BSI? > GRP? > TOR SER ad, RPA DB ZB RE 
BERS RRO SMBH, Merwe ER? TRE 
着 “ 手 ”`\“ 臂 ?等 更 小 的 构件 场 型 。 


舱 套 关系 反映 的 是 同一 类 场 型 之 间 的 关系 。 


2. 交叉 关系 


在 一 些 分 类 场 型 或 构件 场 型 中 ， 其 平 位 又 是 有 序 场 型 或 对 立场 
型 。 例 如 ， 分 类 场 型 军衔 ”的 各 种 下 位 词义 “少尉 "、“ 中 尉 *、“ 大 
”等 又 是 有 序 场 型 ， 构 件 场 型 “ 手 " 的 下 位 词义 “手指 *"、“ 手 
“手背 "等 又 是 有 序 场 型 。 


ie omm 


交叉 关系 反映 的 是 不 同 场 型 之 间 的 关系 。 


3. 传递 关系 


传递 天 系 征 指 一 种 场 型 中 的 词义 传递 到 另 一 种 场 型 之 中 。 例 如 ， 
TAAR, SEUR" A BR RR” > BY > ERE” > DUR” > 
脏 ”...... 等 构成 ， 在 分 类 场 型 中 ,“ 人 ”的 下 位 有 “男人 、 女 人 ”,， “日 种 
人 、 黑 种 人 ”，“ 老 年 人 、 中 年 人 、 青 年 人 、 示 成 年 人 ”, “中国 人、 天 
国人 、 德 国人 、......”，“ 军 人 、 工 人 、 商 人 ......” 等 。 如 果 将 构件 场 型 
中 的 “人 ”与 分 类 场 型 中 的 “人 ”建立 传递 关系， 把 “人 ”的 所 有 构件 词义 
传递 到 分 类 场 型 * 人 ”的 各 种 词义 之 中 ， 就 可 以 使 分 类 场 型 中 各 
种 “人” 均 具有 构件 场 型 中 的 “< 人 ”的 构件 。 


显而易见 ， 传 递 天 系 也 是 不 同 场 型 之 间 的 关系 。 


4. 联想 关系 


不 同 场 型 之 间 以 及 同一 场 型 的 不 同 子 场 之 间 都 可 以 产生 联想 头 
系 。 例 如 ，“ 水 兵 一 一 海 一 一 军舰 一 一 军港 ”之 间 可 以 产生 “军人 ， BA 
环境 ， 武 右 ， 军 事 设施 ”之 间 的 联想 关系 。 联 想 天 系 可 用 于 句子 的 语义 
分 析 中 ， 它 可 以 掏 示 句子 中 各 个 词义 之 间 的 联系 ， 从 而 帮助 计算 机 理 
解 句 子 的 语义 。 
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我 们 在 第 二 章 第 三 节 中 讨论 过 的 词汇 语义 学 主要 研究 高 度 系统 化 
的 词汇 的 结构 ， 这 个 结构 所 表示 的 实际 上 是 词汇 化 的 概念 之 则 的 关 
系 ， 这 种 关系 反映 了 单词 本 喘 所 固有 的 语义 特征 ， 它 们 一 般 是 静态 的 

(static) ， 是 独立 于 单词 在 句子 和 文本 中 的 上 下 文 语 境 而 存在 的 。 


目 然 语 言语 义 分析 的 目的 是 求解 句子 中 的 “谓词 论 元 关系?”， 找 出 
句子 中 单词 之 间 的 语义 关系 ， 这 样 的 语义 关系 不 同 于 单词 本 身 固 有 的 
语义 特征 ， 它 们 一 般 是 动态 的 《dynamic) ， 是 随 着 单词 在 句子 和 本 文 
中 的 上 下 文 语 境 而 改变 的 。 对 于 这 种 语义 关系 的 研究 ， 和 是 结构 语义 学 


(structural semantics) 的 任务 。 


词汇 语义 学 中 研究 的 单词 固有 的 语义 特征 是 自然 语言 处 理 中 进行 
语义 分 析 的 语义 知识 源 ， 在 语义 分 析 时 ， 我 们 可 以 根据 单词 国有 的 语 
义 特征 来 推算 句子 中 单词 与 单词 之 间 的 语义 关系 。 从 这 个 意义 上 我 们 
可 以 说 ， 词 汇 语义 学 是 结构 语义 学 的 基础 。 


本 下 讨 论 结构 语 义学 的 两 个 主要 问题 : 题 元 角色 关系 和 选择 限 
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1. 题 元 角色 关系 


句子 中 单词 与 单词 之 间 的 语义 关系 ， 有 许多 不 同 的 表示 方法 : 例 
如 ， 我 们 可 以 用 “ 格 ”(case) 来 表示 语义 关系 ， 采 用 AGENT ( 施 事 
者 ) , PATIENT ( 受 事 者 ) , BENEFICIENT (受益 者 ) 等 深层 格 作为 
标记 ; 我 们 也 可 以 用 配 价 语法 来 表示 语义 关系 ， 采 用 行动 元 (actant) 


和 状态 元 (circonstant) 等 作为 标记 ; 我 们 也 可 以 用 谓词 论 元 关系 来 表 
示 语 义 关系 ， 采 用 Arg0, Argl, Arg2, Arg3 等 作为 标记 。 


这 些 表示 方法 虽然 各 有 不 同 ， 但 是 都 可 以 归结 为 " 题 元 角色 关 


系 ” (thematic role relation) 。 


题 元 角色 的 标记 基本 上 来 自 菲 尔 麻 (Ch. Fillmore) 1968 年 在 
KFH) 13! (The case for case) 中 提出 的 格 语法 (case grammar) 
的 “ 格 ” (case) 。 


菲 尔 麻 提出 的 格 有 施 事 格 ( A=Agentive ) 、 工 具 格 
( I=Instrumental ) 、 客 体格 ( O=Objective ) 、 处 所 格 
(L=Locative) 、 承 受 格 (D=Dative) 以 及 使 成 格 (F=Factitive) 等 
等 。 菲 尔 摩 本 人 从 来 没有 说 过 他 提出 的 格 一 共有 多 少 个 ， 经 过 我 们 归 
纳 ， 在 1966 年 到 1977 年 间 ， 菲 尔 摩 一 共 提 出 了 13 个 格 。 除 了 原来 的 施 
事 格 、 工 具 格 、 客 体格 、 处 所 格 、 承 受 格 之 外 ， 还 增加 了 感受 格 
(E=Experiencer) 、 源 点 格 (S=Source) 、 终 点 格 (G=Goal) 、 时 间 
格 (T-Time) 、 行 径 格 (P-Path) ` Zit (B=Benefactive) 、 伴 随 
格 (C=Comitative) 、 了 永存 格 /转变 格 (essive/translative) ° 原来 的 使 
成 格 并 入 了 终点 格 。 


主要 的 “ 格 ” 解 释 如 下 : 


一 一 施 事 格 (Agentive) : 表示 由 动词 确定 的 动作 能 察觉 到 的 典 
型 的 动作 发 生 者 ， 一 般 为 有 生命 的 人 或 物 。 例 如 ，He laughed (tHe 
了 ) 中 的 “he”。 


一 一 工具 格 (Instrumental) : 表示 对 于 动词 所 确定 的 动作 或 状态 
而 言 ， 作 为 某 种 因素 而 牵涉 到 的 、 无 生命 的 力量 或 客体 。 例 如 ，He 


cut the rope with a knife 〈 他 用 小 刀 割 断 强 子 ) 中 的 “a knife”。 


一 承受 格 (Dative) : 表示 由 动词 确定 的 动作 或 状态 所 影响 的 
有 生物 。 例 如 ，He is tall (他 个 子 高 ) 中 的 “he”。“ 承 受 格 "常常 被 翻译 
为 “给 予 格 "，“ 给 予 格 " 的 字面 含义 容易 引起 误解 ， 最 好 叫做 “承受 
Mee 


一 一 使 成 格 (Factitive) : 表示 由 动词 确定 的 动作 或 状态 所 形成 的 
客体 或 有 生物 ， 或 者 是 理解 为 动词 意义 的 一 部 分 的 客体 或 有 生物 。 例 
如 ，John dreamed a dream about Mary (约翰 做 了 一 个 关于 玛丽 的 梦 ) 
中 的 “a dream”。 


一 一 处 所 格 (Locative) : 表示 由 动词 确定 的 动作 或 状态 的 处 所 或 
空间 方向 。 例 如 ，He is in the house (他 在 屋子 里 ) 中 的 “the house”。 


一 一 客体 格 (Objective) : 表示 由 动词 确定 的 事物 或 状态 所 影响 
的 事物 ， 它 是 由 名 词 所 表示 的 事物 ， 其 作用 要 由 动词 本 寻 的 词义 来 确 
定 。 例 如 ，He bought a book (他 买 了 一 本 书 ) 中 的 “a book”。 客 体格 
后 来 改称 “ 受 事 格 ”(Patientive) ° 


一 一 受益 格 (Benefactive) : 表示 由 动词 所 确定 的 动作 为 之 服务 
的 有 生命 的 对 象 。 例 如 ，He sang a song for Mary (他 给 玛丽 唱 了 一 支 
aK) 中 的 “Mary”。 


源 点 格 (Source) : 表示 由 动词 所 确定 的 动作 所 作用 到 的 事 
物 的 来 源 或 发 生 位 置 变化 过 程 中 的 起 始 位 置 。 例 如 ，I bought a book 
from Mary (我 从 玛丽 那里 买 了 一 本 书 ， 中 的 “Mary”。 


一 一 终点 格 (Goa) : 表示 由 动词 所 确定 的 动作 所 作用 到 的 事物 
的 终点 或 发 生 位 置 变化 过 程 中 的 终端 位 置 。 例 如 ，Isold a car to Mary 
(我 卖 一 辆 车 给 玛丽 ) 中 的 “Mary”。 


一 一 伴随 格 (Comitative) : 表示 由 动词 确定 的 、 与 施 事 共同 完成 
动作 的 伴随 者 。 例 如 ，He sang a song with Mary 〈 他 跟 玛 丽 一 起 唱 了 一 
只 歌 ) 中 的 “Mary”。 


“ 格 ? 是 格 语法 解释 语义 和 句法 关系 的 基本 工具 ， 可 是 明确 地 列 
出 “ 格 ” 的 清单 却 十 分 困难 。 菲 尔 摩 本 人 从 来 束 没 有 列 出 一 个 完整 而 明 
确 的 格 请 单 ， 在 不 同 的 文章 中 ， 格 的 数目 各 不 相同 ， 连 名 称 也 经 贡 改 
变 。 我 们 上 面 举 出 的 是 菲 尔 摩 经 党 使 用 的 13 个 格 。 


格 语法 在 目 然 语言 处 理 中 广 为 使 用 ， 在 机 天 翻 译 、 人 工 智能 等 领 
域 发 挥 了 作用 ， 有 是 语言 信息 处 理 重 要 的 基础 理论 。 


20 世 纪 70 年 代 中 期 以 后 ， 格 语法 的 发 展 进 入 了 第 二 阶段 。 第 二 阶 
段 的 格 语法 主要 作 了 如 下 修改 : 菲 尔 摩 把 第 一 阶段 表示 格 角色 的 结构 
叫做 撒 层 结构 ， 底 层 结构 由 格 角色 构成 ， 在 第 一 阶段 的 格 语法 中 ， 确 
层 结 构 经 过 转换 残 得 到 表层 结构 ;而 在 第 二 阶段 ， 由 格 角色 构成 的 底 
层 结构 ， 在 转换 之 前 还 必须 在 场景 (scene) 的 制导 下 ， 通 过 “透视 
域 ” (perspective) 的 选择 ， 进 行 深层 主语 和 深层 宾语 等 语法 关系 的 分 
配 ， 从 而 得 到 深层 结构 ， 深 层 结构 进入 转换 部 分 ， 经 过 转换 得 到 表层 
结构 。 这 样 一 来 ， -个 句子 就 有 格 角 色 和 语法 关系 两 个 分 析 平 面 ， 
这 两 个 平面 把 句子 和 句子 所 描述 的 事件 联系 起 来 ， 解 释 句 子 的 语义 和 
句法 现象 。 


菲 尔 摩 提出 ， 句 子 朱 述 的 是 “场景 ”(scene) ,场景 中 各 参与 者 承 
担 格 角色 ， 和 构成 句子 的 确 层 结构 。 展 层 结构 经 过 “透视 
域 ” (perspective) 的 选择 ， 一 部 分 参与 者 进 入 透视 域 ， 成 为 句子 的 核 
心 成 分 (nucleus) ， 每 一 个 核心 成 分 根据 突出 的 等 级 体系 (saliency 
hierarchy) 确定 其 语法 关系 ， 其 他 的 参与 者 不 一 定 能 进入 句子 ， 即 使 
它们 出 现在 句子 中 ， 也 只 能 成 为 外 围 成 分 (periphery) 。 


场景 是 语言 之 外 的 真实 世界 ， 如 物体 、 事 件 、 状 态 、 行 为 、 变 
化 ， 以 及 人 们 对 于 真实 世界 的 记忆 、 感觉 、 知 觉 等 。 语 言 中 的 每 一 个 
词 、 短 语 、 句 子 部 是 对 场景 的 描述 。 当 人 人 们 说 出 一 个 词 、 一 个 短语 、 
一 个 句子 、 或 者 一 段 话语 ， 都 是 确定 一 个 场景 ， 并 且 突 出 或 强调 那个 
场景 中 的 某 一 部 分 。 例 如 ， 动 词 “ 写 ?描写 的 征 这 样 一 种 场景 : 一 个 人 
在 某 个 物体 的 表面 握 着 一 个 顶部 尖锐 的 工具 使 其 进行 运动 ， 在 物体 表 
面 留 下 痕迹 。 在 这 个 场景 中 有 4 个 实体 〈 即 4 个 参与 者 ) : 发 出 这 个 行 
为 的 人 、 实 施 这 个 行为 所 凭借 的 工具 、 承 受 这 个 行为 的 物体 表面 、 这 
个 行为 在 物体 表面 留 下 的 痕迹 。 这 是 在 没有 上 下 文 的 时 候 ， 单 独 一 个 
动词 “ 写 ? 所 描述 的 全 部 场景 ， 也 束 是 当 我 们 没有 遇 到 任何 其 他 的 上 下 
文 条 件 时 ， 一 个 单独 的 动词 “ 写 ” 所 产生 的 全 部 想象 ， 这 也 就 是 “ 写 ” 这 
个 词 给 我 们 引发 出 的 全 部 想象 。 句 子 的 功能 在 于 突出 被 描述 的 主体 。 
假如 我 对 你 说 ,“ 人 小 王 正 在 写 "， 那 么 ， 这 个 句子 所 引发 出 的 场景 吏 不 
同 了 。 根 据 这 个 句子 ， 你 可 以 知道 这 是 真实 世界 中 一 个 事件 的 场景 ， 
当 听 到 这 个 句子 时 ， 你 会 在 脑海 中 建立 起 这 样 一 个 场景 : 小 王 正 握 着 
一 文笔 ， 笔 在 某 一 物体 表面 移动 ， 并 且 在 物体 表面 留 下 痕迹 。 这 个 场 
景 仍然 有 4 个 实体 : 书写 人 VDE) 、 书 写 工 具 〈 笔 ) 、 书 写 物 体 的 表 
T ( 纸 ) 、 在 表面 留 下 的 痕迹 ( 字 ) ,但 是 ， 在 这 个 场景 中 突出 了 书 
写 人 小 王 这 一 个 实体 。 如 采 我 说 “小 王 正 在 写 信 ”， 那 么 ， 这 个 句子 引 
出 的 场景 仍然 只 有 4 个 实体 ， 但 是 突出 了 书写 人 UNE) 和 在 表面 留 下 


的 痕迹 (B) 2 个 实体 。 如 有 果 我 说 “小 王 用 粉笔 在 黑板 上 写 ”， 这 个 句子 
引发 出 的 仍然 是 4 个 场景 ， 但 是 突出 了 书写 人 OE) 、 书 写 工 具 08 
E) 和 物体 表面 (黑板 3 个 实体 。 如 果 我 说 “小 王 用 粉笔 在 黑板 上 写 
了 一 个 数学 公式 ”， 这 个 句子 引发 出 的 场景 仍然 是 4 个 ， 不 过 ， 与 前 面 3 
个 句子 不 同 的 是 ， 这 4 个 实体 都 突出 了 : 书写 人 UNE) 、 在 表面 留 下 
的 痕迹 (数学 公式 ) 、 书 写 工 具 (粉笔 、 物 体 表面 (黑板 ) 。 


语义 联系 着 场景 ， 但 是 场景 并 不 等 于 语义 ,场景 必须 通过 语言 使 
用 者 的 透视 才能 进入 语言 ， 才 能 与 语义 发 生 联 系 。 我 们 说 出 每 一 个 句 
子 或 者 每 一 段 话语 ， 都 有 一 个 特定 的 透视 域 。 在 一 段 话 语 的 任何 一 个 
地 方 ， 我 们 都 是 从 一 个 特殊 的 透视 域 去 考虑 一 个 场景 ， 当 整个 场景 都 
在 考虑 之 中 的 时 候 ， 我 们 一 般 只 是 注意 场景 的 某 一 部 分 。 例 如 ， 商 务 
事件 有 4 个 参与 者 : 买主 、 卖 主 、 款 项 和 货物 ， 和 款项 有 时 还 可 以 再 进 一 
步 分 析 为 现金 和 肉 帐 两 种 情况 。 一 个 原型 商务 事件 应 该 包括 上 述 的 内 
7r, 但 十 ， 当 我 们 谈论 这 个 事件 时 ， 所 使 用 的 单个 句子 要 求 我 们 对 于 
事件 选择 一 个 特殊 的 透视 域 。 例 如 ， 想 把 卖主 和 货物 置 于 透视 域 ， 整 
用 动词 “ 卖 ”， 想 把 买主 和 款项 置 于 透视 域 ， 就 用 动词 “购买 "， 如 此 等 
等 。 这 样 ， 任 何人 听见 并 理解 他 所 昕 到 的 某 一 句 话 时 ， 心 目 中 束 有 一 
个 包括 商务 事件 的 全 部 必要 方面 的 场景 ， 然 而 。 只 有 事件 的 茶 些 方面 
被 确定 下 来 ， 并 且 被 置 于 透视 域 中 。 


进入 透视 域 的 成 分 成 为 句子 的 核心 成 分 。 每 一 个 核心 成 分 在 深层 
结构 都 常 有 一 种 语法 关系 ， 担 任 句 子 的 主语 或 直接 宾语 。 没 有 进入 透 
视 域 的 成 分 不 一 定 出 现在 句子 中 ， 即 使 出 现 的 话 ， 也 只 是 作为 句子 的 
外 围 成 分 。 外 围 成 分 通常 由 介词 、 状 语 或 者 小 句 引 入 。 


核心 成 分 的 突出 情况 是 不 同 的 ， 菲 尔 摩 提出 如 下 原则 来 确定 核心 
成 分 的 突出 等 级 : 


1. 主动 成 分 级 别 高 于 非 主动 成 分 ; 

原因 成 分 级 别 高 于 非 原因 成 分 ; 

3. 作 为 人 的 (或 有 生命 的 ) 感受 者 的 级 别 高 于 其 他 成 分 ; 

4. 棕 受 改变 的 成 分 的 级 别 高 于 未 蒙受 改变 的 成 分 ; 

5. 完全 的 或 个 性 化 的 成 分 的 级 别 高 于 一 个 成 分 的 某 一 部 分 或 无 个 性 
化 的 成 分 ; 

6. 实际 形体 的 级 别 咒 于 背景 成 分 ; 

7. 肯定 成 分 的 级 别 高 于 不 定 成 分 。 
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这 里 的 等 级 是 按照 突出 程度 递减 的 顺序 来 排列 的 ， 因 此 ， 主 动 成 
分 的 级 别 高 于 其 他 任何 成 分 ， 原因 成 分 的 级 别 融 于 除了 主动 成 分 之 外 
的 任何 一 种 成 分 ， 作 为 人 的 感受 者 的 成 分 的 级 别 高 于 除了 主动 成 分 和 
原因 成 分 之 外 的 任何 一 种 成 分 ， 依 此 类 推 。 


因此 ， 在 确定 核心 成 分 的 语法 天 系 时 ， 应 该 按照 突出 程度 的 顺序 
来 考虑 。 


当 确 定 核 心 成 分 为 一 个 时 ,场景 中 最 高 的 成 分 束 古 主语 。 当 确定 
核心 成 分 有 两 个 时 ， 应 该 按照 它们 在 等 级 中 的 相对 位 置 来 分 配 主语 和 
直接 宾语 ， 级 别 高 的 成 分 为 主语 ， 级 别 较 低 的 成 分 为 直接 宾语 。 当 一 
个 动词 的 主语 已 经 确定 ， 可 以 在 其 他 两 个 事物 中 选择 一 个 作为 直接 宾 
语 时 ， 在 突出 等 级 中 级 别 高 的 事物 占有 优先 地 位 。 如 果 两 个 成 分 的 突 
出 程度 相同 ， 那 么 ， 它 们 中 的 任何 一 个 都 可 以 进入 透视 域 。 不 过 ， 这 
种 突出 等 级 的 划分 还 处 于 假设 阶段 。 正 如 菲 尔 摩 所 说 的 : “在 现 阶段 ， 
这 一 切 还 纯 属 推测 。” 这 些 问题 还 有 行 我 们 进一步 探索 。 


格 语法 中 的 深层 格 具 有 普遍 性 ， 适 用 于 描写 各 种 目 然 语言 的 语 
句 。 一 旦 用 格 语法 对 句子 结构 进行 了 格 的 描写 ， 束 能 对 句子 的 表层 天 


系 和 性 质 做 出 各 种 推 有 新 ， 例 如 ， 推 断 主 语 是 什么 ， 能 否 形成 一 个 主 谓 
结构 ， 如 何 安排 句子 中 的 词 序 等 等 。 


菲 尔 摩 在 1977 年 指出 ， 能 够 描述 同一 商业 事件 的 不 同 的 动词 可 以 
选择 不 同 的 方式 来 表达 事件 的 参与 者 。 例 如 ， 在 John 和 Tom 之 间 涉 及 3 
美元 和 1 个 三 明治 的 交易 可 以 用 下 面 的 任何 一 种 方式 来 描述 : 


a. John bought the sandwich from Tom for three dollars. 
(Johnt ZET M TomAb E T 33 = HAIR ° ) 

b. Tom sold John the sandwich for three dollars. 

(Tom 以 三 美元 卖 给 John 那 块 三 明治 。) 

c. John paid Tom three dollars for the Sandwich. 

(John 付 给 Tom 三 美元 来 买 那 块 三 明治 。) 


在 这 些 句 子 里 ， 动 词 buy、sell 和 pay 从 不 同 的 视角 来 表达 商业 事 
件 ， 并 选择 潜在 参与 者 与 题 元 角色 的 不 同 的 映射 来 实现 这 种 视角 。 我 
们 可 以 看 出 ， 这 三 个 动词 具有 完全 不 同 的 映射 。 这 个 事实 告诉 我 们 ; 
动词 的 语义 角色 必须 在 动词 的 词典 条 目 中 列 出 ， 从 洪 在 的 概念 结构 是 
不 能 预测 的 。 


根据 这 些 事实 ， 许 多 人 研究 者 认为 ， 在 目 然 语言 处 理 系统 的 词典 
中 ， 和 需要 分 别 列 出 每 个 动词 的 句法 和 语义 组 合 的 可 能 性 ， 不 能 完全 依 
靠 句 法 功能 和 语义 关系 之 间 的 对 应 ， 倘 单 地 进行 逻辑 推理 来 解决 语义 
分 析 问 题 ， 而 动词 的 句法 和 语义 组 合 的 可 能 性 应 该 通过 “框架 ”来 描 
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句子 中 单词 与 单词 之 间 的 语义 关系 ， 有 许多 不 同 的 表示 方法 ， 这 
些 表 示 方 法 虽然 各 有 不 同 ， 但 是 都 可 以 归结 为 “* 题 元 角色 关 


系 ” (thematic role relation) 。 


题 元 角色 的 标记 基本 上 来 目 我 们 前 面 介 绍 过 的 菲 尔 摩 格 语法 中 的 
格 标记 ， 主 要 的 题 元 角色 如 下 : 


e AGENT (WFE): 有 意志 的 事件 引起 者 。 例 如 , “The waiter 
spilled the soup” 中 的 waiter ° 


e EXPERIENCER (AWA) : 事件 的 经 验 者 。 例 如 , “John has a 
headache” 中 的 John » . 


e FORCE ( 施 力 者 ) : 无 意志 的 事件 引起 者 。 例 如 , “The quake 
broke the glass” 中 的 quake。 


e THEME (主题 : 事件 最 直接 影响 到 的 参与 者 。 例 如 , “He 
broke the ice ”中 的 ice。 


e RESULT (结果 ) : 事件 造成 的 结局 。 例 如 ，“The Korean 
government has built the World-Cup Stadium ”中 的 World-Cup 


Stadium ° 


e CONTENT (AZ) : 在 涉及 命题 的 事件 中 命题 的 内 容 。 例 如 ， 
John asked: “What is your name ?2 中 的 “What is your name? ” ° 


e INSTRUMENT (LH) : 事件 中 所 使 用 的 工具 。 例 如 ，“John 


writes with a pencil "中 的 with a pencil ° 


e BENEFICIARY (受益 者 ) : 事件 的 受益 者 。 人 例如， “John 


reserved a room for his boss ”中 的 for his boss。 


e SOURCE (来 源 ) : 在 涉及 转移 的 事件 中 对 象 所 从 出 的 来 源 。 
例如 , “John flew in from Beijing ”中 的 from Beijing ° 


e GOAL (Ath) : 在 涉及 转移 的 事件 中 对 象 所 转移 的 方向 。 例 
40, “John drove to Seoul ”中 的 to Seoul。 


题 元 角色 吏 是 这 样 的 一 些 范 畴 符号 ， 它 们 可 以 作为 描述 动词 论 元 
的 一 种 浅 层 的 语义 标记 。 


例如 ， 下 面 的 句子 : 


John broke a bat (Johni hi T 24 BK) 
John opened a door (John 打 开 了 门 ) 


它们 的 FOPC 表 达 式 如 下 : 


Je, x, y ISA ( e, Breaking ) A Breaker (e, John) A 
BrokenThing (e,y) AISA (y, BaseballBat) 

Je, x, y ISA ( e, Opening ) ^ Openner ( e, John) A 
OpenedThing (e,y) AISA (y, Door) 


XE, “Breaker” (frit) 和 “Opener” (打开 者 ) 都 是 有 意志 的 
行为 者 ， 通 常 是 有 生命 的 ， 他 们 是 相关 事件 的 直接 起 因 负 责 者 。 我 们 
可 以 使 用 题 元 角色 来 表达 这 样 的 意思 ， 例 如 ， 我 们 可 以 说 ， 上 壕 两 个 
动词 的 主语 都 是 AGENT ( 施 事 者 ) ，AGENT 是 有 意志 的 事件 引起 
者 ， 这 两 个 动词 的 直接 宾语 分 别 是 “BrokenThing”( 折 断 物 ) 
和 “OpenedThing”( 打 开 物 ) ， 它 们 通常 是 没有 生命 的 客体 ， 是 动作 作 
用 的 对 象 ， 这 样 的 题 元 角色 叫做 THEME (主题 ) 。 


在 句子 “John broke his collarbone” 中 ，John 是 EXPERIENCER (经 
验 者 ) 。 


在 句子 “The quake broke glass in several downtown skyscrapers” + , 
quake 是 FORCE 〈 施 力 者 ) ° 


在 句子 “It broke his jaw" F , It Æ X: ^ AGENT 3% FORCE 的 
INSTRUMENT (工具 ) 。 


菲 尔 摩 指出 ， 在 英语 主动 名 中 的 主语 可 能 充当 的 题 元 角色 是 有 一 
定 的 优 和 顺序 的 。 他 提出 了 如 下 的 关于 主语 的 题 元 角色 层级 : 


AGENT = INSTRUMENT = THEME 
这 个 题 元 角色 层级 的 含义 如 下 : 


e 如 果 动 词 的 题 元 角色 中 包含 AGENT INSTRUMENT 和 
THEME， 那 么 ， 主 语 束 充 当 AGENT 的 角色 。 


e 如 果 动 词 的 题 元 角色 中 只 包含 INSTRUMENT 和 THEME HB 
么 ， 主 语 就 充当 INSTRUMENT 的 角色 。 


e 在 被 动 名 中， 主语 充当 THEME 的 角色 。 
例如 ， 


例如 , John opened the door. 


AGENT THEME 

John opened the door with the key. 
AGENT THEME INSTRUMENT 
The key opened the door. 
INSTRUMENT THEME 

The door was opened by John. 

THEME AGENT 


题 元 角色 还 可 以 作为 概念 结构 或 常识 中 的 语义 角色 以 及 它们 在 具 
体 语 言 的 表层 语法 的 句法 功能 (比如 主语 和 宾语 ) 之 间 的 中 间 层 。 在 
机 器 翻译 中 ， 题 元 角色 可 以 作为 一 种 有 用 的 中 间 语 言 。 


学 者 们 在 概念 结构 和 句法 功能 间 的 映 喘 方 面 做 了 大 量 广泛 的 研究 
工作 ， 这 样 的 研究 叫做 “关联 理论 ” (linking theory) 


例如 ， 菲 尔 摩 曾经 研究 过 “与 格 交 区 ” (dative alternation) 问题 。 
他 指出 ， 某 些 动词 (比如 give，send，read) 可 以 具有 一 个 AGENT， 
一 个 THEME 和 一 个 GOAL， 有 时 候 ，THEME 作 为 宾语 出 现 ，GOAL 在 
介词 短语 中 出 现 (如 例子 a) ; 有 时 候 ，GOAL 也 可 以 作为 宾语 出 现 ， 
而 THEME 作 为 第 二 宾语 出 现 (如 例 b) : 


a. Doris gave/sent/read the book to Cary. 


AGENT THEME GOAL 
b. Doris gave/sent/read Cary the book. 
AGENT GOAL THEME 


由 于 GOAL 表 示 “ 与 格 *"， 它 在 句子 (a) 中 出 现在 介词 短语 中 ， 在 句子 
(b) 中 作为 宾语 出 现 。 由 于 GOAL 的 出 现 是 交替 的 ， 所 以 叫做 “与 格 


交替 ”。 
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I/R (Talmy, 1985) faith, “情感 ?动词 (如 frighten ` please 
等 ) 可 以 用 THEME 作 主语 ， 如 在 (1) 中 所 示 ， 或 者 用 EXPERIEME 
作 主 语 ， 并 用 THEME 作 介词 宾语 ， 如 在 (2) 中 所 示 。 


(1)a. That frightens me 


THEME EXPERIENCER 
b. That interests me 
THEME EXPERIENCER 
c. That surprises me 
THEME EXPERIENCER 
(294. I am frightened of that. 
EXPERIENCER THEME 
b. I am interested in that. 
EXPERIENCER THEME 
c. I am surprised at that. 
EXPERIENCER THEME 


J| X. (Levin, 1993) 总 结 了 80 个 这 种 交替 ， 包 括 在 每 种 语义 类 型 
中 动词 的 详尽 的 列表 ， 以 及 语义 限制 、 特 例 和 其 他 的 特性 。 这 个 列表 
已 为 许多 自然 语言 处 理 的 计算 模型 使 用 。 


2. 选择 限制 


一 个 词 位 对 于 它 的 各 个 论 元 角色 所 施加 的 语义 约束 叫做 选择 限制 


(selectional restriction) 。 


词 位 第 党 具有 许多 各 式 各 样 的 泗 义 ， 这 些 涵义 对 它们 的 论 元 施加 
的 约束 是 不 同 的 。 因 此 ， 选 择 限制 针对 的 是 词 位 中 某 个 特定 的 宰 义 ， 
而 不 是 整个 词 位 。 我 们 来 研究 下 面 关 于 词 位 serve 的 例句: 


(1) Well, there was the time they served green-lipped mussels from 


New Zealand. 
(2) Which airlines serve Denver? 
(3) Which ones serve breakfast? 


fil (1) TARR serve rE” AVS, FER EC AYTHEME f f 
为 某 种 食品 。 例 (2) 说 明 的 是 serve 的 “提供 商业 服务 ”的 涵义 ， 它 的 
THEME 被 约束 为 某 种 可 以 确认 的 地 理 或 行政 实体 。 例 (3) 中 serve 的 
涵义 与 例 (1) 非常 接近 ， 说 明 的 是 serve 的 飞机 上 供应 的 某 一 顿 特定 
的 饮食 的 泗 义 。 对 于 多 义 词 位 的 相同 语义 角色 的 这 些 不 同 的 选择 限制 
可 以 加 入 到 词典 的 同一 词 位 的 不 同 池 义 中 。 我 们 可 以 使 用 这 样 的 选择 
限制 根据 上 下 文 进行 上 收 义 消解 。 


由 不 同 词 位 以 及 同一 词 位 的 不 同 涵义 所 施加 的 选择 限制 可 能 很 不 
相同 ， 有 些 词 位 的 选择 限制 的 范围 很 广泛 ， 有 的 词 位 的 选择 限制 的 范 
围 很 罕 小 。 我 们 来 研究 下 面 关 于 动词 imagine (ER) dift (提升 ) 和 
diagonalize (计算 对 角 和 矩阵 ) 的 例句 : 


(4) I cannot imagine what this lady does all day. 


(5) In rehearsal I often ask the musicians to imagine a tennis game. 


(6) He lifted the fish from the water. 


(7) To diagonalize a matrix is to find its eigenvalues. (it x #4 6 
阵 来 发 现 它 的 真 值 ) 


如 果 已 经 知道 例 (4) 和 例 (5) 中 imagine 的 意义 ， 我 们 就 会 毫 不 
吃惊 地 发 现 它 对 于 能 够 填充 它 的 THEME 角 色 的 概念 几乎 没有 语义 约 
束 ， 其 选择 限制 的 范围 是 很 广泛 的 ， 它 的 AGENT 和 角色 被 限定 为 人 或 其 
他 有 生命 的 实体 ， 选 择 限制 也 比较 宽 。 在 例 (6) 中 ]ift 的 涵义 将 它 的 
THEME 角 色 限 制 为 可 提升 的 东西 ， 我 们 可 以 把 它 的 选择 限制 确定 
为 “物体 "。 在 例 (7) 中 ，Diagonalize 对 它 的 THEME 角 色 的 选择 限制 
就 非常 具体 化 ， 它 必须 是 一 个 矩阵 (matrix) ° 


在 语义 分 析 系 统 中 ， 我 们 如 何 来 表示 选择 限制 呢 ? 


我 们 可 以 采用 一 阶 谓词 演算 (FOPC) 来 表示 选择 限制 。 
如 采 我 们 有 如 下 的 FOPC 表 达 式 : 
de, x, y Eating (e) A Agent (e, x) A Theme (e, y) 


为 了 说 明 对 于 y 的 选择 限制 是 某 种 可 食 的 东西 (edible thing) , 4X 
们 需要 在 上 面 的 表达 式 中 增加 一 项 “ISA (y, EdibleThing) *, $$$: 


de, x, y Eating (e) A Agent (e,x) A Theme (e, y) A ISA 
(y, EdibleThing) 


如 果 在 句子 中 有 “ate a hamburger” 这 样 的 短语 ， 我 们 还 要 在 所 得 到 
的 FOPC 表 达 式 中 再 增加 一 个 新 的 选择 限制 <ISA (y, Hamburger) ”， 得 
到 |: 


de, x, y Eating (e) A Agent (e,x) A Theme (e, y) AISA 
(y, EdibleThing ) AISA (y, Hamburger) 


我 们 最 后 得 到 的 这 个 FOPC 表 达 式 是 合理 的 ， 因 为 在 范 


WV; "Hamburger" Hy Pt J8 B] B bà 5j TE YER "EdibleThing" Py Pt Jes HJ B, bà je 
TEARS, EITEAK EP AB DZ ce TBOBCTR EE STR o 


但 是 ， 使 用 FOPC 来 表达 选择 限制 显得 有 些小 题 大 做 ， 这 样 一 个 简 
单 的 句子 ， 要 使 用 这 么 多 的 选择 限制 ， 实 在 是 用 牛刀 来 杀 小 鸡 。 


另外 一 个 比较 方便 的 方法 是 使 用 词 网 (WordNet) 中 的 SYNSET 
(同义词 集 ) 来 表示 选择 限制 。 例 如 ， 在 包含 短语 “ate a humburger” 的 
句子 中 ， 我 们 可 以 从 词 网 的 60 000 个 SYNSET 中 找到 SYNSET {food, 
nutrient} , 这 个 SYNSET 的 定义 是 : “any substance that can be 


metabolized by an organism to give energy and build tissue” ° 


我 们 可 以 使 用 这 个 SYNSET 作 为 动词 eat 的 角色 THEME 的 选择 限 
制 ， 具 体 到 单词 hamburger， 我 们 可 以 在 这 个 单词 的 上 位 词 中 确认 它 是 
一 种 食品 。 


Hamburger 时 上 位 词 如 下 : 


Sense 1 


Hamburger, beefburger — 


(a fried cake of minced beef served on a bun) 


5sandwich 
snack food 
dish 
2nutriment, nourishment, sustenance ... 
food, nutrient 
substance, matter 
object, physical object 


entity, something 


根据 上 下 位 关系 可 以 看 出 ，hamburger 是 一 种 可 食 的 东西 。 


这 个 方法 比较 灵活 ， 可 以 满足 不 同 程度 的 选择 限制 的 需要 。 例 
如 ，“imagine, lift, diagnolize” 等 动词 的 THEME 的 选择 限制 在 程度 上 各 
有 差别 。 我 们 可 以 把 imagine 的 THEME 的 选择 限制 定 为 SYNSET 
(entity, something) ， 把 lift 的 THEME 的 限制 定 为 SYNSET (object, 
physical object) ， 把 diagonilize 的 THEME 的 选择 限制 定 为 SYNSET 
{matrix}。 这 些 不 同 的 选择 限制 可 以 容许 “imagine a hamburger” 和 "lift a 
hamburger” 这 样 的 合格 的 短语 ， 并 排除 “diagonalize hamburger” 这 样 的 
不 合格 的 短语 。 
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第 九 章 ”马尔 可 夫 链 与 隐 马 尔 可 夫 
模型 


我 们 在 第 三 章 中 介绍 词类 标注 的 时 候 ， 用 来 进行 词类 标注 的 两 种 
重要 的 统计 模型 都 是 由 马尔 可 夫 链 (Markov Chain) 发 展 而 成 的 : 一 个 
是 隐 马 尔 可 夫 模 型 (hidden Markov model， 简 称 HMM) ， 另 一 个 是 最 
KRAL (maximum entropy， 人 简称 MaxEnt) ， 与 马尔 可 夫 有 关 的 
MaxEnt 叫 做 最 大 们 马 尔 可 夫 模 型 (maximum entropy Markov model, f 
称 MEMM) 。 它 们 全 都 是 机 器 学 习 模 型 。 在 本 章 中 ， 我 们 将 进一步 更 
加 全 面 地 、 更 加 形式 化 地 来 介绍 马尔 可 夫 链 和 隐 马 尔 可 夫 模 型 。 


隐 马 尔 科 夫 模 型 和 最 大 精 马 尔 可 夫 模 型 两 者 都 是 序列 分 类 需 


(sequence classifier) 。 


序列 分 类 器 或 序列 标号 器 (sequence labeler) 是 给 序列 中 的 某 个 单 
元 指派 类 或 标号 的 模型 。 


我 们 在 前 面 研 究 过 的 有 限 状 态 转录 机 是 一 种 非 概率 的 序列 分 类 
器 ， 例 如 ， 这 种 序列 分 类 器 能 够 把 单词 的 序列 转换 为 语素 的 序列 。 


HMM 和 MEMM 使 用 概率 序列 分 类 器 把 这 样 的 概念 进一步 扩充 了 ; 
给 定 一 个 单元 (单词 ， FE, WR, 句子 ， 以 及 其 他 单元 ) 的 序列 ， 
HMM 和 MEMM 就 能 够 计算 在 可 能 的 标号 上 的 概率 分 布 ， 并 且 选 择 出 最 
好 的 标号 序列 。 


我 们 在 第 三 章 中 ， 已 经 研究 过 一 个 重要 的 序列 分 类 问题 : 词类 标 
注 。 在 词类 标注 时 ， 序 列 中 每 一 个 单词 都 被 指派 一 个 词类 的 标记 。 


在 自然 语言 处 理 中 ， 如 果 我 们 把 语言 看 成 是 由 不 同 表 示 层 面 上 的 
序列 组 成 的 ， 那 么 ， 我 们 在 很 多 地 方 都 可 以 遇 到 这 样 的 序列 分 类 问 
题 。 除 了 词类 标注 之 外 ， 我 们 还 使 用 序列 模型 来 进行 语音 识别 ， 句 子 
切 分 和 字 素 -首位 转换 ， 局 部 句法 剖析 或 语 块 分 析 ， 命 名 实体 识别 和 信 
JHE ° 


本 章 首 先 介绍 马尔 可 夫 链 ， 然 后 详细 地 介绍 隐 马 尔 可 夫 模 型 
(HMM) 、 疝 前 算法 和 更 加 形式 化 的 韦 特 比 算法 (Viterbi algorithm) 
以 及 向 前 -向 后 算法 。 


BW BRAKE 


早 在 1913 年 ， 俄 国 著 名 数学 家 马尔 可 夫 (A. A. Markov, (RICH 
A.A.MAPKOB, 1856—1922) 就 注意 到 语言 符号 出 现 概率 之 间 的 相互 
影响 ， 他 试图 以 语言 符号 的 出 现 概 率 为 实例 ， 来 研究 随机 过 程 的 数学 
理论 。 


马尔 可 夫 出 生 于 俄罗斯 的 荣 赞 ， 他 的 父亲 十 一 位 中 级 官员 ， 后 来 
举 家 迁 往 圣 彼得 堡 。1874 年 马尔 可 夫 入 圣彼得堡 大 学 ， 毕 业 后 留 校 任 
教 。1886 年 当选 为 圣彼得堡 科学 院 院 士 。 马 尔 可 夫 的 主要 癸 究 领域 在 
概率 和 统计 方面 。 他 的 研究 开创 了 随机 过 程 这 个 新 的 领域 ， 以 他 的 名 
字 命 名 的 马尔 可 夫 链 在 现代 工程 、 目 然 科学 和 社会 科学 等 各 个 领域 都 
有 很 广泛 的 应 用 。 


为 了 研究 随机 过 程 这 个 数学 问题 ， 他 在 汗 牛 充 栋 的 众多 文学 作品 
中 进行 选择 ， 选 中 了 俄罗斯 诗人 普 硕 金 (AIIYIIKHMH) JEK AOIR 
事 长 诗 《 叶 夫 根 尼 : 奥 涅 金 》， 作 为 他 研究 数学 问题 的 素材 。 


NEK OTRE XES) (Eugene Onegin) 连续 地 记载 了 19 
世纪 早期 的 故事 ， 讲 的 是 一 个 青年 花花 公子 奥 涅 金 《Onegin) 拒绝 了 
姑娘 达 吉 亚 娜 (Tatiana) 的 爱情 ， 又 在 决斗 中 杀 死 了 他 的 好 友 连 斯 基 
(Lenski) ， 最 后 为 了 这 两 件 大 错 而 追 悔 莫 及 。 


然而 ， 这 部 叙事 长 诗 之 所 以 受到 人 们 的 喜爱 ， 主 要 并 不 是 因为 它 
的 情节 ， 而 是 因为 它 的 风格 和 结构 。 除 了 很 多 有 趣 的 结构 上 的 创新 之 
外 ， 这 部 叙事 长 诗 是 以 一 种 叫做 奥 涅 金 诗 节 (Onegin stanza) 的 抑 扬 格 
形式 写 的 ， 这 是 一 种 不 同 凡响 的 韵律 技巧 项 。 


例如 ， 奥 涅 金 和 连 斯 基 决 斗 前 的 描述 ， 中 文 译本 是 按照 奥 湿 金 诗 
节 来 翻译 的 ， 


a 仇人， 曾几何时 ， 血 的 淘 望 
b 使 他 们 两 人 互相 青 叛 ? 

a 曾几何时 ， 他 们 彼此 谈 思 想 ， 
b KEM, HERR, HERE? 
c 他 们 曾经 是 一 对 好 友 ， 

c MCR, MEREN, 
d 175 HSA ERAT , 

d 他 们 彼此 在 不 声 不 啊 中 

e RNN TERA... 
t 他 们 可 该 相 视 一 笑 ， 和 和 和 气 气 ， 
f 趁 两 人 手 上 还 未 染 上 血迹 ， 


e 大 家 各 目 东 西 ， 分 手 了 事 ? .……. 
g TEWE, EMARE H 
g RATER o 


这 些 因素 使 得 这 部 诗 体 长 篇 小 说 在 翻译 成 其 他 语言 的 时 候 ， 显 得 
非 肖 复杂 ， 篆 般 引 起 和 争议。 很 多 译本 是 以 诗歌 的 形式 来 翻译 的 ， 而 纳 
博 科 夫 (Nabokov) 的 有 名 的 英 译 本 却 把 俄 文 逐 字 逐 句 地 照 字面 翻译 成 
了 英语 的 散文 。 因 此 关于 此 书 的 翻译 以 及 按照 字面 翻译 还 是 按照 诗歌 
翻译 之 间 争 议 引起 了 学 术 界 众多 的 评论 。 


然而 ， 在 1913 年 ， 马 尔 可 夫 对 于 普 硕 金 的 文本 提出 了 一 个 不 是 那 
么 容易 引起 争论 的 问题 : 是 否 可 以 使 用 文本 中 字符 频 度 的 计数 来 帮助 
我 们 计算 序列 中 下 一 个 字母 是 元 音 的 概率 是 多 少 呢 ? 


马尔 可 夫 别 开 生 面 ， 他 没有 按照 单 人 的 办 法 来 研究 ， 而 是 把 《时 
夫 根 尼 : 奥 涅 金 》 中 的 连续 字母 加 以 分 类 ， 把 元 音 记 为 V， 把 辅 首 记 为 
C， 然 后 ， 以 连续 字母 为 统计 单元 进行 计算 ， 研 究 元 音 和 辅音 字母 出 现 
概率 之 间 的 相互 影响 。 由 于 当时 还 没有 计算 机 ， 也 没有 大 规模 的 语 料 
库 ， 所 以 ， 马 尔 可 夫 只 得 使 用 手工 查 频 的 方法 ， 统 计 了 由 元 音 和 辅音 
字母 组 成 的 三 字母 序列 在 《 叶 夫 根 尼 : 奥 涅 金 》 中 的 出 现 次 数 ， 得 到 了 
如 下 的 元 辅音 序列 表 (其 中 N 表 示 字 和 母 序 列 的 记 数 ， 即 Count 
Number) : 


X91 《时 夫 根 尼 : 奥 涅 金 》 中 的 元 辅音 序列 表 


NC VVV ) =115 
| -N( VV )=1104 
N( VVC ) 2989 
-= N( V ) = 8638 
NC VCV ) 24212 
- N( VC) =7534 
NC VCC )=3322 
- N = 20000 
NC CVV ) =989 
| - N( CV ) =7534 
N( CVC ) = 6545 
-N( C) 211362 
N( CCV ) 23322 
| - N( CC ) 23827 
NCCOC. 505 


从 这 个 表 中 可 以 看 出 ， 在 统计 文本 的 总 字母 出 现 次数 (包括 元 音 
和 辅音 ) 为 20 000 次 ， 其 中 ， 元 音字 母 出 现 8 038 次 ， 辅 音字 母 出 现 11 
362 次 ; 当 元 音字 母 之 后 为 元 音字 母 时 ， 字 母 序列 VV 出 现 1 104 次 ; 当 
元 首 字 母 之 后 出 现 辅音 时 ， 字 母 序列 VC 出 现 7 534 次 ; 当 字 母 序列 VV 
之 后 为 元 音字 母 时 ， 字 母 序列 VVV 出 现 115 次 ; 当 字 母 序列 VV 之 后 为 
辅音 字母 时 ， 字 和 母 序列 VVC 出 现 989 次 ，...... 等 等 。 


根据 上 表 中 的 数据 ， 可 以 计算 出 有 关 元 音字 母 和 辅音 字母 出 现 的 
例如 ， 元 音字 母 的 出 现 概率 为 : 


N V 8638 
PCV) 5 Ooi. aap 
N 20000 


元 音字 母 在 辅音 字母 之 后 的 出 现 概 率 为 


NC) 11362 
元 音字 母 在 元 音字 母 之 后 的 出 现 概率 为 
Vi Vso? oS = gd 
NV) 8638 
显而易见 ， 在 俄语 中 ， 元 音字 母 在 辅音 字母 之 后 出 现 的 概率 大 于 
元 音字 母 在 元 音字 母 之 后 出 现 的 概率 。 马 尔 可 夫 的 这 个 表 ， 确 切 地 说 
明了 元 音字 母 和 辅音 字母 之 间 出 现 概率 的 相互 影响 [2 。 


上 面 的 现象 可 以 概括 成 随机 过 程 加 以 研究 。 
随机 过 程 有 两 层 合 义 : 
第 一 ， 它 是 一 个 时 间 的 函数 ， 随 着 时 间 的 改变 而 改变 ; 


第 二 ， 每 个 时 刻 上 的 函数 值 是 不 确定 的 ， 是 随机 的 ， 也 束 是 说 ， 
每 一 时 刻 上 的 函数 值 按照 一 定 的 概率 而 分 布 。 


在 我 们 写 文章 或 讲话 的 时 候 ， 每 一 个 字母 或 音素 ) 的 出 现 随 着 
时 间 的 改变 而 改变 ， 是 时 间 的 函数 ， 而 在 每 一 时 刻 上 出 现 什么 字母 
(或 音素 ) 则 有 一 定 的 概率 性 ， 是 随机 的 ， 因 此 ， 我 们 可 以 把 语言 的 
使 用 看 成 一 个 随机 过 程 。 


在 这 个 随机 过 程 中 ， 所 出 现 的 语言 符号 是 随机 试验 的 结局 ， 语 言 
束 古 一 系列 具有 不 同 随 机 试验 结局 的 链 。 


如 有 果 在 随机 试验 中 ， 各 个 语言 符号 的 出 现 彼 此 独立 ， 不 相互 影 
啊 ， 那 么 ， 这 种 链 就 是 独立 链 。 


如 果 在 独立 链 中 ， 每 个 语言 符号 的 出 现 概 率 相 等 ， 那 么 ， 这 种 链 
就 叫做 等 概率 独立 链 。 


如 果 在 独立 链 中 ， 各 个 语言 符号 的 出 现 概率 不 相等 ， 有 的 出 现 概 
率 高 ， 有 的 出 现 概 率 低 ， 则 这 种 链 叫 做 不 等 概率 独立 链 。 


在 独立 链 中 ， 前 面 的 语言 符号 对 后 面 的 语言 符号 没有 影响 ， 有 是 无 
记忆 的 ， 因 而 这 种 独立 链 是 由 一 个 无 记忆 信 源 发 出 的 。 这 种 独立 链 是 
一 种 没有 后 效 的 随机 过 程 ， 在 已 知 的 当前 状态 的 情况 下 ， 过 程 的 未 来 
状态 与 它 过 去 的 状态 无 天， 这 是 一 种 原始 形式 的 马尔 可 夫 过 程 。 


马尔 可 夫 对 于 《时 夫 根 尼 : 奥 涅 金 》 中 的 元 音 和 辅音 系列 的 研 完 突 
破 了 原始 形式 的 马尔 可 夫 过 程 ， 过 程 的 未 来 状态 与 它 过 去 的 状态 是 有 
关系 的 。 这 样 ， 束 把 马尔 可 夫 过 程 的 研究 癌 前 推进 了 一 步 。 


在 如 像 《 叶 夫 根 尼 . 奥 涅 金 》 中 的 元 音 和 辅音 系列 这 样 的 随机 试验 
中 ， 每 个 语言 符号 的 出 现 概率 不 相互 独立 ， 每 一 个 随机 试验 的 个 别 结 
局 依赖 于 它 前 面 的 随机 试验 的 结局 ， 那 么 ， 这 种 链 束 叫做 “马尔 可 夫 
$£" (Markov chain) 。 


在 马尔 可 夫 链 中 ， 前 面 的 语言 符号 对 后 面 的 语言 符号 是 有 影响 
的 ， 这 种 链 生 由 一 个 有 记忆 信 产 发 出 的 。 这 正 是 马尔 可 夫 研究 《时 夫 
根 尼 : 奥 涅 金 》 的 字母 序列 所 面临 的 情况 。 正 如 马尔 可 夫 所 指出 的 ， 语 
吉 束 是 由 这 种 有 记忆 信 源 发 出 的 Markov 链 。 


如 果 我 们 只 考虑 前 面 一 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概率 
的 影响 ， 这 样 得 出 的 语言 成 分 的 链 ， 叫 做 一 重 马 尔 可 夫 链 ， 也 就 是 二 


元 语法 。 


如 果 我 们 考虑 到 前 面 两 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概率 
的 影响 ， 这 样 得 出 的 语言 符号 的 链 ， 岂 做 二 重 马 尔 可 夫 链 ， 也 就 是 三 


元 语法 。 


如 果 我 们 考虑 到 前 面 三 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概率 
的 影响 ， 这 样 得 出 的 语言 符号 的 链 ， 叫 做 三 重 马尔 可 夫 链 ， 也 束 是 四 


元 语法 。 


类 似 地 ， 我 们 还 可 以 考虑 前 面 四 个 语言 符号 、 五 个 语言 符 
E each 对 后 面 的 语言 符号 出 现 概 率 的 影响 ， 分 别 得 出 四 重 马 尔 可 夫 
HE (五 元 语法 ) 、 五 重 马尔 可 夫 链 (六 元 语法 ) 、.…… 等 等 ， 依 此 类 
推 。 


随 着 马尔 可 夫 链 重 数 的 增 大 ， 随 机 试验 所 得 出 的 语言 符号 链 越 来 
越 接近 有 意义 的 自然 语言 文本 。 


乔 姆 斯 基 和 心理 学 家 米 勒 (G. Miller) 指出 ， 这 样 的 马尔 可 夫 链 的 
重 数 并 不 是 无 穷 地 增加 的 ， 它 的 极限 就 是 语法 上 和 语义 上 成 立 的 目 然 
语言 句子 的 集合 。 这 样 ， 我 们 就 有 理由 把 自然 语言 的 句子 看 成 是 重 数 
很 大 的 号 尔 可 夫 链 了 。 马 尔 可 夫 链 在 数学 上 刻画 了 目 然 语言 句子 的 生 
成 过 程 ， 是 一 个 早期 的 自然 语言 的 形式 模型 ， 后 来 的 很 多 人 研究 CDU 
如 ,，“N 元 语法 ”的 研究 ， 都 是 建立 在 马尔 可 夫 链 的 基础 之 上 的 。 


马尔 可 夫 链 (Markov chain) 有 时 也 叫做 显 马尔 可 夫 模 型 

(Observed Markov model) 。 马 尔 可 夫 链 和 隐 马 尔 可 夫 模 型 二 者 都 是 

有 限 目 动机 的 扩充 ; 而 有 限 目 动机 是 可 以 用 状态 集 和 状态 之 间 转 移 集 
来 定义 的 。 


加 权 有 限 状态 目 动 机 (weighted finite-state automaton) 是 有 限 目 动 
机 加 以 简单 提升 而 成 的 。 加 权 有 限 自动 机 中 每 一 个 弧 都 与 一 个 概率 相 
联系 ， 这 个 概率 说 明 通 过 该 弧 的 可 能 性 的 大 小 。 这 些 概率 应 该 归 一 
化 ， 使 得 离开 一 个 结 点 的 所 有 弧 的 概率 的 总 合 为 1。 


马尔 可 夫 链 (Markov chain) 是 加 权 自 动机 的 一 种 特殊 情况 ， 其 中 
输入 序列 惟一 地 确定 了 目 动 机 将 要 通过 的 状态 。 由 于 马尔 可 夫 链 不 能 
表示 固有 的 歧义 问题 ， 因 此 ， 只 是 在 把 概率 指派 给 没有 上 收 义 的 序列 
时 ， 马 尔 可 夫 链 才 是 有 用 的 。 


一 个 马尔 可 夫 链 使 用 状态 、 状 态 之 间 的 转移 以 及 初始 状态 和 终结 
状态 来 描述 。 图 9.1a 是 一 个 马尔 可 夫 链 ， 它 给 天 气 事件 的 序列 指派 概 
率 ， 其 中 的 词汇 由 HOT，COLD 和 WARM 组 成 。 图 9.1lb 是 另 一 个 马尔 可 
夫 链 ， 它 给 单词 序列 wi , .…, wn 指派 概率 。 事 实 上， 这 样 的 马尔 可 夫 链 
是 一 个 二 元 语法 模型 。 给 出 了 图 9.1 中 的 两 个 模型 ， 我 们 就 可 以 对 于 任 
何 的 由 词汇 中 的 单词 组 成 的 序列 指派 概率 。 


图 9.1 表示 天 气 事件 (a) 和 单词 序列 (b) 的 马尔 可 夫 链 。 本 章 的 图 取 自 朱 夫 斯 饥 (D. 


Jurafsky) 等 的 Speech and Language Processing (Second Edition, 2010) 一 书 ， 谨 此 致谢 。 


下 面 我 们 简短 地 说 明 怎 样 来 做 这 件 事 。 


首先 ， 让 我 们 更 加 形式 化 地 描述 这 个 问题 ， 把 马尔 可 夫 链 看 成 
种 概率 图 模型 (graphical model) ， 这 种 概率 图 模型 是 表示 图 (graph) 
中 概率 假设 的 一 种 方法 © 


一 个 马尔 可 夫 链 可 以 使 用 如 下 的 部 分 来 描述 : 


Q2g 4... qy 状态 ( states )N 的 集合 

A ed deis ux 8 转移 概率 矩阵 (transition probability 
matrix )A, 每 一 个 a 表示 从 状态 i 转 
移 到 状态 j 的 概率 ,对 于 Vi, Xa; =1， 

do» dr 特殊 的 初始 状态 ( start state ) 和 终结 
状态 ( end state ), 它们 与 观察 值 没 有 
联系 。 

从 图 9.3 中 可 以 看 出 ， 我 们 把 状态 〈 包 括 初始 状态 和 终结 状态 ) 表 
示 为 图 中 的 结 点 ， 把 转移 表示 为 图 中 的 结 点 之 间 的 弧 。 


在 一 个 一 阶 马 尔 可 夫 链 (first-order Markov chain) 中 ， 我 们 假设 一 
个 特定 状态 的 概率 只 与 它 的 前 面 一 个 状态 有 关 。 这 就 是 马尔 可 夫 假 设 
(Markov Assumption) ， 可 以 表示 为 : 


P (qi Idi .--dia ) =P (qi lii ) 


由 于 每 一 个 ai 表示 概率 p (Gq) ， 根 据 归 一 化 的 要 求 ， 从 一 个 给 
定 状态 出 发 的 所 有 弧 的 概率 的 值 ， 其 总 和 应 当 为 1， 也 就 是 说 
i 


X a; sii Vi 


j=l 


有 时 还 使 用 一 种 不 同 的 马尔 可 夫 链 的 表示 方式 ， 其 中 没有 初始 状 
仿 和 终结 状态 ， 而 是 明确 地 把 初始 状态 和 接收 状态 上 的 分 布 表 示 出 
TETT, -.. ,TN 在 状态 上 的 初始 概率 分 布 ( initial 
probability distribution ). m; #78 2R 
可 夫 链 在 状态 i 开始 的 概率 。 茶 些 
状态 j 可 以 有 m; =0, 这 意味 着 它们 
不 可 能 是 初始 状态 。 同 样 也 有 ， 
| 
QA =i q,， dese 合法 的 接收 状态 ( accepting states ) 的 
集合 ,QA c Qo 
所 以 ， 状 态 1 作为 第 一 个 状态 的 概率 可 以 表示 为 a01 ， 或 者 也 可 以 


表示 为 rm 。 由 于 每 一 个 mi 表示 概率 p (qi |START) ， 所 有 的 r 的 概率 的 


总 和 必定 为 1 
n 
r3 1 ; 


ELCHE 


现在 我 们 使 用 图 9.2 中 的 概率 样本 来 计算 下 列 序列 的 概率 : 


图 9.1 在 图 9.1 中 所 示 的 天 气 事件 的 马尔 可 夫 链 的 另外 一 种 表示 方法 


(1) hot hot hot hot 
(2) cold hot cold hot 


里 没有 使 用 转移 概率 aol 来 表示 特定 的 初始 状态 ， 而 使 用 天 量 r 来 
表示 初始 状态 概率 的 分 布 。 b) 中 的 图 是 一 个 概率 样本 。)* 


(1) hot hot hot hot=0.5*0.5*0.5*0.5=0.062 5 
(2) cold hot cold hot=0.3*0.2*0.2*0.2=0.002 4 
这 两 个 概率 的 差别 告诉 我 们 用 图 9.2 来 编码 的 现实 世界 的 天 气 事实 
是 什么 ? 天 气 事实 的 概率 是 可 以 直接 观察 到 的 。 


BoP bea Rew 


当 需 要 计算 我 们 能 够 在 世界 上 直接 观察 到 的 事件 序列 的 概率 的 时 
候 ， 马 尔 可 夫 链 是 很 有 用 的 。 然 而 ， 在 很 多 情况 下 ， 我 们 感 兴趣 的 事 
件 可 能 并 不 能 直接 在 世界 上 观察 到 ， 而 是 隐藏 在 观察 之 后 的 。 


例如 ， 在 词类 标注 中 ， 我 们 并 没有 观察 到 存在 于 现实 世界 上 的 词 
类 标记 ;我 们 观察 到 的 只 古 一 个 一 个 具体 的 单词 ， 而 我 们 的 目标 十 根 
据 观察 到 的 单词 的 序列 推断 出 正确 的 词类 标记 。 这 是 ， 词 类 标注 是 隐 
IRAJ (hidden) ， 它 们 不 能 被 我 们 直接 观察 到 。 


在 语音 识别 中 也 遇 到 同样 的 情况 ， 我 们 观察 到 的 是 存在 于 现实 世 
界 上 的 声学 事件 ， 我 们 要 推断 出 “隐藏 * 在 声学 事件 后 面 的 单词 ， 它 们 
征 声 学 事件 的 基本 的 导 因 来 源 。 


隐 马 尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM) 使 得 我 们 有 
可 能 既 涉 及 到 被 观察 到 的 事件 〈 例 如 ， 在 词类 标注 时 我 们 在 输入 中 看 
到 的 单词 ) ， 又 涉及 到 隐藏 的 事件 (例如 ， 词 类 标记 ) ， 这 些 隐藏 事 
件 在 概率 模型 中 被 我 们 认为 是 引导 性 的 因素 。 


在 第 三 章 中 我 们 已 经 简要 地 介绍 过 隐 马 尔 可 夫 模 型 ， 读 者 对 于 这 
个 模型 已 经 有 了 大 致 的 了 解 。 


这 里 ， 我 们 使 用 爱 依 斯 讷 (Jason Eisner) 2002 年 在 “An interactive 
spreadsheet for teaching the forward-backward algorithm” (Proceedings of 
the ACL Workshop on effective tools and methodologies for teaching NLP 
and CL, 10-18) 一 文中 提出 的 例子 ， 并 参照 朱 夫 斯 凯 (D. Jurafsky) 等 
的 Speech and Language Processing 一 书 中 的 实例 ， 来 进一步 说 明 隐 马尔 
可 夫 模 型 。 爱 依 斯 讷 和 朱 夫 斯 凯 对 于 隐 马 尔 可 夫 模 型 的 讲述 都 非常 精 
彩 ， 是 我 们 最 重要 的 参考 。 


爱 依 斯 讷 在 他 的 文章 中 提出 了 如 下 的 问题 : 


在 一 于 多 年 之 后 ， 假 定 你 是 一 个 在 2799 年 研究 地 球 暖 化 历史 的 气 
象 学 家 ， 而 你 找 不 到 在 2007 年 夏天 任何 关于 美国 巴尔 的 摩 州 、 马 里 兰 


州 的 天 气 的 记录 人 唤 料 ， 但 是 你 在 偶然 中 发 现 了 爱 依 斯 讷 的 日 记 ， 其 中 
列 出 了 在 这 个 夏天 的 每 一 天 他 吃 冰 淇 淋 的 数量 。 这 样 ， 我 们 束 可 以 利 
用 这 些 关 于 冰淇淋 数量 的 观察 来 估计 每 一 天 的 气温 。 为 了 简单 起 见 ， 
我 们 假定 每 一 天 的 天 气 只 有 两 种 状态 :“ 冷 ”( 记 为 C) 和 “ 热 ”( 记 为 
H) 。 这 样 一 来 ， 爱 依 斯 讷 提出 的 这 个 问题 可 以 描述 如 下 : 


给 定 一 个 观察 序列 O0， 每 一 个 观察 是 一 个 整数 ， 它 对 应 于 在 某 
一 个 给 定 的 日 子 所 吃 的 冰淇淋 的 数量 ， 引 起 爱 依 斯 讷 吃 冰 淇 淋 的 
天 气 的 状态 序列 是 “隐藏 的 "， 这 个 隐藏 的 状态 序列 用 Q 表 示 ， 它 的 
值 为 H 或 C。 


爱 依 斯 讷 提出 的 这 个 问题 实际 上 束 古 一 个 隐 马 尔 可 夫 模 型 。 现 在 
我 们 给 隐 马 尔 可 夫 模 型 作 形 式 化 的 定义 ， 重 点 说 明 它 在 哪些 方面 与 马 
尔 可 夫 链 有 差别 。 


一 个 隐 马 尔 可 夫 模 型 HMM 可 以 使 用 如 下 的 几 个 部 分 来 描述 : 


Q 2g19;....— qn 状态 ( states )N 的 集合 

As= a a e Age iiia 转移 概率 和 矩阵 ( transition probability 
matrix )A ,每 一 个 ai 表示 从 状态 1 4e 
移 到 状态 j 的 概率 ,对 于 Vi, Xa; =1。 


mei c. Oy 观察 ( observations )T 的 序列 ,每 一 个 
观察 从 词汇 Y= wm, Ws o.e vP 
取 值 。 

B -b( o, ) 观察 似 然 度 (observation likelihoods ) 


序列 , 也 叫做 发 射 概率 (emission 
probabilities ) ,每 一 个 观察 似 然 度 表 
示 从 状态 i 生成 观察 o, 的 概率 。 
-— 与 观察 值 没有 联系 的 特殊 的 初始 状 
态 ( start state ) 和 终结 状态 ( end 
state ), 以 及 从 初始 状态 出 发 的 转移 
概率 agao- . .ao 和 进入 终结 状态 的 
转移 概率 airaiy.. .are 
正如 我 们 在 介绍 马尔 可 夫 链 时 说 过 的 那样 ， 有 时 我 们 还 使 用 一 种 
不 同 的 隐 马 尔 可 夫 模 型 的 表示 方式 〈 使 用 r 的 记 法 ) ， 其 中 没有 初始 状 
态 和 终结 状态 ， 而 是 明确 地 把 初始 状态 和 接收 状态 上 的 分 布 表 示 出 
来 。 


T —T, Ts 。 9 Ty 在 状态 上 的 初始 概率 分 布 ( initial 
probability distribution )。Tr; 表 示 马 尔 
可 夫 链 在 状态 i 开始 的 概率 。 某 些 
状态 j 可 以 有 m, =0, 这 意味 着 它们 
不 可 能 是 初始 状态 。 同 样 也 有 ， 
»q-ls 

QA =! q,, Gy eas 合法 的 接收 状态 ( accepting states ) 的 
集合 ,QA cQ. 


在 这 里 ， 我 们 不 使 用 这 样 的 n 记 法 。 


一 阶 隐 马 尔 可 夫 模 型 有 两 个 假设 一 个 是 马尔 可 夫 假 设 (Markov 


Assumption) ， 一 个 是 输出 独立 性 假设 (Output Independence) ° 
第 一 个 假设 一 一 马尔 可 夫 假 设 ， 第 一 个 假设 与 一 阶 马 尔 可 夫 链 中 


的 假设 一 样 : 尽管 在 马尔 可 夫 链 中 ， 一 个 特定 状态 qi 的 概率 与 它 前 面 
的 各 个 状态 qj … gia 都 有 关 ， 但 是 ， 我 们 假定 ， 这 个 特定 的 状态 只 与 直 


P (qi ld: ---qi-1 ) =P (qi Idi: ) 


第 二 个 假设 输出 独立 性 假设 ， 一 个 输出 观察 o, 的 概率 只 与 产 
生 该 观察 的 状态 q 有关， 而 与 其 他 的 任何 状态 qi .… q; qr 和 其 他 的 任 
何 观察 01 .… 0, or 无 关 。 用 公式 表示 为 : 


P (0;|gi... qi- Gr, O4. Oj. Or) =P (old) 
图 9.3 是 用 于 描述 吃 冰 淇 淋 的 HMM 的 一 个 样本 。H 和 C 两 个 状态 分 


别 表示 热天 气 和 冷 天 气 ， 观 察 的 值 〈 吃 冰淇淋 的 数量 ) 取 自 字母 表 O=- 
{1, 2, 3}， 每 一 个 观察 值 表示 爱 依 斯 讷 在 给 定 的 日 子 吃 冰 淇 淋 的 数量 。 


B B 


P | HOT) 2 P | COLD) 5 
P(2| HOT) |= ] P(2 | COLD)} = s 
P(3| HOT)| 1.4 P(3|COLD)} |.1 


图 9.3 ”关于 爱 依 斯 讷 在 给 定 的 日 子 吃 冰 淇 淋 的 数量 《观察 值 ) 与 天 气 (隐藏 变量 H 或 C) 之 间 
的 关系 的 隐 马 尔 可 夫 模 型 。 在 这 个 例子 中 ， 我 们 没有 使 用 最 后 状态 ， 但 是 允许 状态 1 和 状态 2 二 
者 都 可 以 作为 最 后 状态 。 


在 状态 为 hot 的 情况 下 ， 爱 依 斯 讷 吃 冰 淇 淋 的 概率 如 下 : 


P(llhot)) (0.2) 吃 1 个 冰淇淋 的 概率 

P(21hot)|=|0.4| 吃 2 个 冰淇淋 的 概率 

PC 3 thot )) (0.4) 吃 3 个 冰淇淋 的 概率 
在 状态 为 cold 的 情况 下 ， 爱 依 斯 讷 吃 冰淇淋 的 概率 如 下 : 


PC 1 1cold ) 0.5\ Z1 个 冰 湛 淋 的 概率 
PC 2leold ) | =| 0.4 Iz 2 个 冰 湛 淋 的 概率 
P( 31cold ) 0.1 Iz 3 个 冰 湛 淋 的 概率 
在 图 9.3 的 HMM 中 ， 任 何 两 个 状态 之 间 的 转移 都 有 一 个 非 零 的 概 
率 。 这 样 的 HMM 叫 做 全 连通 HMM (fully connected HMM) 或 者 遍历 
HMM (ergodic HMM) 。 但 是 ， 有 时 我 们 会 遇 到 状态 之 间 的 转移 概率 
为 零 的 HMM。 例 如 ， 从 左 到 右 的 HMM (left-to-right HMM， 也 叫做 
Bakis HMM) ， 其 中 状态 的 转移 总 是 从 左 到 右 进行 的 ， 如 图 9.4 所 示 。 
在 Bakis HMM 中 ， 没 有 一 个 转移 是 从 编号 较 高 的 状态 向 编号 较 低 的 状 
态 进 行 的 ， 或 者 更 精确 地 说 ， 从 编号 较 高 的 状态 向 编号 较 低 的 状态 的 
转移 概率 为 去。Bakis HMM 一 般 用 于 给 如 像 语 音 这 样 含有 时 间 进 程 的 
现象 建 模 。 


图 9.4 ”两 个 含有 4 个 状态 的 隐 马 尔 可 夫 模 型 ， 左 边 是 从 左 到 右 的 HMM (Bakis HMM) ， 右 边 


是 全 连通 HMM (遍历 HMM) 。 在 Bakis HMM 中 ， 所 有 没有 显示 出 来 的 转移 都 具有 零 概率 。 


我 们 已 经 知道 了 HMM 的 结构 ， 现 在 我 们 转 过 来 讨论 用 HMM 来 计 
算 事物 的 算法 。 


1989 年 拉 宾 讷 (Rabiner) 的 “ 隐 马 尔 科 夫 模 型 及 其 在 语音 识别 中 的 
应 用 ”中 (A) 是 一 个 很 有 影响 的 讲座 教程 ， 这 个 教程 以 20 世 纪 60 年 代 
弗格森 (Jack Ferguson) 的 教程 为 基础 ， 提 出 了 使 用 三 个 基本 问题 
(three fundamental problems) 来 描述 隐 马 尔 可 夫 模 型 的 思想 。 


X= “PEAR a) eS 


问题 1 〈 似 然 度 问 题 ) : 给 定 一 个 HMM A= (A, B). 和 一 个 观察 序 
列 O， 确 定 观 察 序列 的 似 然 度 P (OD) 。 


问题 2 (解码 问题 : 给 定 一 个 观察 序列 O 和 一 个 HMMN= (A, 
B) ， 找 出 最 好 的 隐藏 状态 序列 Q。 


问题 3 (学 习 问 题 ) : 给 定 一 个 观察 序列 O 和 HMM 中 的 状态 集合 ， 
自动 地 学 习 HMM 的 参数 A 和 B 。 


词类 标注 是 问题 2 的 一 个 实例 。 下 面 ， 我 们 将 更 加 形式 化 地 摘 述 问 
题 1 和 问题 2， 问 题 3 是 机 噩 目 动 学 习 的 问题 ， 我 们 只 做 简略 的 讨论 。 
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图 9.5 中 的 HMM， 计 算 序列 “3 1 3” 的 概率 是 多 少 ? 
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či 


图 9.5 ”对 于 给 定 的 隐藏 状态 序列 “hot hot cold”， 冰 湛 淋 事件 为 “3 1 3” 的 观察 似 然 度 的 计算 。 


更 加 形式 地 说 ， 第 一 个 问题 就 是 : 给 定 一 个 HMM A= (A,B) 和 一 
个 观察 序列 O， 计 算 观 察 序列 似 然 度 P (OD) ° 


对 于 马尔 可 夫 链 ， 其 中 的 表面 的 观察 与 隐藏 的 事件 是 相同 的 ， 我 
们 只 要 顺 着 标记 为 “3 1 3” 的 状态 ， 把 相应 的 弧 上 的 概率 相 乘 ， 束 可 以 
计算 出 “3 1 3 的 概率 。 然 而 ， 对 于 隐 马 尔 可 夫 模 型 ， 事 情 束 不 是 那么 
简单 了 。 我 们 试图 确定 冰淇淋 的 观察 序列 为 “3 1 3? 时 的 概率 ， 但 是 ， 
由 于 状态 序列 是 隐藏 的 我 们 不 知道 隐藏 的 状态 序列 是 什么 ! 


让 我 们 前 先 从 稍微 简单 一 些 的 情况 开始 。 假 定 我 们 已 经 知道 天 气 
的 冷 热 情况 并 且 知 道 爱 依 斯 讷 吃 了 多 少 冰 湛 淋 ， 我 们 来 计算 观察 序列 
的 似 然 度 。 例 如 ， 对 于 给 定 的 隐藏 状态 序列 “hot hot cold”， 我 们 来 计算 
观察 序列 “3 1 3 的 输出 似 然 度 。 


让 我 们 来 看 一 看 究竟 怎样 来 进行 计算 。 首 先 ， 我 们 知道 ， 在 隐 马 
处 可 夫 模 型 中 ， 每 一 个 隐 汤 状态 只 产生 一 个 单独 的 观察 。 所 以 ， 隐 藏 
状态 序列 与 观察 序列 具有 相同 的 长 度 幢 。 


给 定 这 种 一 对 一 的 映 射 以 及 马尔 可 夫 假 设 ， 对 于 一 个 特定 的 隐藏 


状态 序列 Q=qo dis qz ; +5 Gp 以 及 一 个 观察 序列 O=ol , 07, .…, Op , WE 
序列 的 似 然 度 为 : 


OI OE [Pol a) 


从 一 个 可 能 的 隐藏 状态 序列 “hot hot cold” 到 所 吃 冰 淇 淋 的 观察 序 
列 “3 1 3” 的 向 前 概率 单位 计算 如 下 面 公式 所 示 : 


P (313|hot hot cold) =P (3|hot) xP (1|hot) xP (3|cold ) 


图 9.5 是 这 个 计算 的 图 形 表 示 。 


不 过 ， 在 实际 上 我 们 当然 并 不 知道 隐藏 状态 序列 (RE) 究竟 是 
什么 。 因 此 ， 在 计算 冰淇淋 事件 “3 1 3 的 概率 时 ， 我 们 需要 通盘 考虑 
所 有 可 能 的 天 气 序列 ， 对 于 它们 进行 概率 加 权 ， 这 样 一 来 ， 计 算 将 变 


得 非常 复杂 。 
让 我 们 来 计算 在 特定 的 天 气 序列 Q 生 成 一 个 特定 的 冰淇淋 事件 序列 
0 的 联合 概率 。 一 般 说 来 ， 这 个 联合 概率 为 : 
M0)s > 20,0) = > BR OI QN 0) 


AR AY BEBUESASC AS 21 A, “hot hot cold”, AA, Ri] 
的 冰淇淋 观察 “3 1 3” 和 一 个 可 能 的 隐藏 状态 序列 “hot hot cold” 的 联合 概 
率 可 以 用 下 面 公式 来 计算 : 


P (313, hot hot cold) =P (hot |start) xP (hot |hot ) xP (hot 
lcold ) xP (3|hot) xP (1|hot) xP (3|cold ) 


图 9.6 是 这 个 计算 的 图 形 表示 。 
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3 1 3 
图 9.6 ”冰淇淋 事件 “3 1 3" 和 隐藏 状态 序列 “hot hot cold” 的 联合 概率 的 计算 。 


根据 公式 ， 计 算 如 下 : 


P (313, hot hot cold) =0.8*0.7*0.3*0.4*0.2*0.1=0.001 344 


在 实际 的 天 气 变化 中 ， 隐 藏 的 天 气 状态 的 序列 是 很 多 的 。 如 果 我 
们 知道 了 如 何 计算 观察 与 其 中 一 个 特定 的 隐藏 状态 序列 的 联合 概率 ， 
我 们 束 可 以 把 该 观察 与 所 有 可 能 的 隐藏 状态 序列 的 联合 概率 加 起 来 ， 
计算 出 这 个 观察 与 所 有 可 能 的 隐藏 状态 序列 的 全 部 概率 : 


人 


在 上 面 的 这 个 例子 中 ， 我 们 需要 计算 冰淇淋 观察 三 事件 (如 ，“3 1 
3") 和 八 个 可 能 的 隐藏 状态 序列 (A, “cold cold cold", “cold cold 
hot” , “hot hot cold" , “cold hot cold? , “hot cold cold” , “hot hot 
hot”, “not cold hot", “cold hot hot” 等 等 ， 共 有 23 =8 种 可 能 的 状态 序 


列 ) 的 联合 概率 的 总 和 : 


P (3 1 3) =P (3 1 3, cold cold cold) 
+P (3 1 3, cold cold hot) 


+P (3 1 3, hot hot cold) 
+P (3 1 3, cold hot cold) 
+P (3 1 3, hot cold cold) 
+P (3 1 3, hot hot hot) 

+P (3 1 3, hot cold hot) 
+P (3 1 3, cold hot hot) 


对 于 具有 N 个 隐藏 状态 和 T 个 观察 的 观察 序列 ， 将 会 有 NT 个 可 能 的 
隐藏 序列 。 在 实际 的 问题 中 ，N 和 T 二 者 都 是 很 大 的 ， 如 果 按 照 这 样 的 
MERTE, N 将 呈 指 数 增长 ， 它 将 是 一 个 很 大 的 数 。 因 此 ， 在 实际 
上 ， 我 们 不 可 能 通过 分 别 计算 每 一 个 隐藏 状态 序列 的 观察 似 然 度 然后 
把 它们 加 起 来 求 和 的 办 法 来 计算 全 部 的 观察 似 然 度 。 我 们 可 以 避 开 这 
样 复杂 的 联合 概率 的 计算 ， 而 只 计算 观察 序列 与 局 部 的 状态 序列 之 间 
的 观察 似 然 度 ， 这 样 观察 似 然 度 更 有 实用 价值 。 


在 隐 马 尔 可 夫 模 型 中 ， 我 们 使 用 一 种 叫做 向 前 算法 (forward 
algorithm) 的 有 效 的 算法 来 代替 这 种 呈 指 数 增长 的 极为 复杂 的 算法 ， 
这 样 ， 算 法 的 复杂 度 将 大 大 降低 ， 实 验证 明 ， 向 前 算法 的 复杂 度 为 O 

(N? T) ° 


问 前 算法 是 一 种 动态 规划 算法 ( dynamic programming 
algorithm) ， 当 得 到 观察 序列 的 概率 时 ， 它 使 用 一 个 表 来 存储 中 间 
值 。 向 前 算法 也 使 用 对 于 生成 观察 序列 的 所 有 可 能 的 隐藏 状态 的 路 径 
上 的 概率 求 和 的 方法 来 计算 观察 概率 ， 不 过 它 把 每 一 个 路 径 隐 含 地 爱 
合 在 一 个 单独 的 向 前 网 格 (forward trellis) 中 ， 从 而 提高 了 效率 。 在 向 
前 网 格 中 ， 横 向 表示 观察 序列 ， 纵 向 表示 状态 序列 。 


图 9.7 是 对 于 给 定 的 隐藏 状态 序列 “hot hot cold” 计 算 观 察 序列 “3 1 
3 的 似 然 度 的 向 前 网 格 的 一 个 例子 。 其 中 ， 横 向 表示 时 间 上 的 观察 序 
Mo, > 09, 03, Z) [n] Ez x 间 上 的 状态 序列 qu » Gi, Go, Op ° 
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图 9.7 用 于 计算 冰淇淋 事件 “3 1 3” eB LS TELA TE RII [T Bi PA 


向 前 算法 网 格 中 的 每 一 个 单元 of () 表示 对 于 给 定 的 自动 机 和 ， 在 
看 了 前 面 的 { 个 观察 之 后 ， 在 状态 j 的 概率 。 每 一 个 单元 % () 的 值 使 用 
对 于 把 我 们 引入 这 个 单元 的 每 一 条 路 径 上 的 概率 求 和 的 方法 来 计算 。 
形式 地 说 ， 每 一 个 单元 表示 如 下 的 概率 : 


a, (j) =P (0,,05...0,, qi =j/A) 


这 里 ，q, = 的 意思 是 :“ 当 状态 序列 中 的 第 t 个 状态 是 状态 j 时 的 概率 ”。 


我 们 使 用 对 于 扩充 导入 当前 单元 的 所 有 路 径 求 和 的 方法 来 计算 概率 。 
在 时 刻 t(， 对 于 给 定 的 状态 qj a (ji) 的 值 的 计算 公式 为 : 


ay) o anata 


| 
根据 这 个 公式 ， 我 们 可 以 使 用 扩充 前 面 路 径 的 方法 来 计算 在 时 刻 t 
时 的 向 前 概率 ， 计 算 时 ， 我 们 要 把 下 面 的 3 个 因素 相 乘 : 


aCi) 从 前 面 的 时 间 步 算 起 的 前 面 的 向 前 路 径 概 率 


( previous forward path probability ) 


aij 从 前 面 状态 qi 到 当前 状态 q 的 转移 概率 ( transition 
probability ) 
b o, ) 在 给 定 的 当前 状态 j ,观察 符号 0 的 状态 观察 似 然 


度 ( state observation likelihood ) 
图 9.7 是 一 个 向 前 网 格 (forward trellis) ， 横 轴 表 示 不 同时 间 的 观 
察 ， 与 时 间 (time) 有 关 ， 分 别 为 ol , 0, , 03 ; 纵 轴 表 示 状 态 ， 与 空间 
(space) 有 关 ， 分 别 为 qo , qi d», df。 隐藏 状态 用 圆圈 表示 ， 观 察 
方 框 表示 。 非 实 的 日 圆圈 表示 非法 的 转移 。 图 中 说 明了 在 两 个 时 间 步 
对 于 两 个 状态 的 a。，(j) 的 计算 。 根 据 公式 0a， G) =P (01, 0 …ot , qt 
=) ， 口 在 每 一 个 单元 中 进行 计算 。 在 每 一 个 单元 中 概率 的 计算 结 
用 右边 的 公式 来 表示 : e G) =P (01,02,..,01, qt=jlI) ° 


在 时 间 步 1 和 状态 1 的 向 前 概率 为 : 
a, (1) =P (ClStart) *P (3|C) =0.2*0.1=0.02 


这 意味 着 ， 从 开始 到 cold 这 个 状态 ， 吃 3 根 冰 淇 淋 的 观察 似 然 度 是 
0.02 ° 


在 时 间 步 1 和 状态 2 的 向 前 概率 为 : 


a, (2) =P (H|Start) *P (3IH) =0.8*0.4=0.32 


这 意味 着 ， 从 开始 到 hot 这 个 状态 ， 吃 3 根 冰 淇 淋 的 观察 似 然 度 是 
0.32 ° 


在 时 间 步 2 和 状态 1 的 向 前 概率 为 ag。 (1) ， 它 是 生成 局 部 的 观察 序 
列 “3 1” 的 状态 1 在 时 间 步 2 时 的 向 前 概率 。 我 们 在 计算 这 个 概率 时 ， 要 
把 在 时 间 步 1 的 概率 a 加 以 扩充 ， 通 过 两 条 路 径 : 


一 条 路 径 是 Start-C-C， 其 向 前 概率 P (ClStart) *P (3|C) *P 
(CIC) *P (1]O) ， 也 就 是 


a, (1) *P (CIC) *P (1|C) ; 


另 一 条 路 径 是 Start-H-C， 其 向 前 概率 为 P (H|Star) *P (3|H) 
*P (CIH) *P (1IC) ， 也 就 是 


a, (2) *P (CIH) *P (1C) ° 


把 这 两 个 向 前 概率 相 加 ， 得 到 oz (1) 的 向 前 概率 为 : 


on( 1) S EC ClStart ) * PO31C) * CIC)  FÉ10C) 
+ PC H/Start) & PF 31H) * Ff CIH)« PC LIC) 
=a,(1)*PCCIC)*PO1IC) + a(2)*PCCIH) * PC 1IC). 
=0.2 *0.1 *0.6*0.5 + 0.8 *0.4 «0.3 *0.5 
=0.02 «0.30 + 0.32 «0.15 
=0. 006 + 0.048 
=0. 054 


这 意味 着 ， 从 开始 到 cold 再 到 cold 以 及 从 开始 到 hot 再 到 cold 的 天 和 气 
状态 ， 吃 冰淇淋 数 为 “3 1 的 观察 似 然 度 是 0.054。 


在 时 间 步 2 和 状态 2 的 向 前 概率 为 ag。 (2) ， 它 是 生成 局 部 的 观察 序 
列 “3 1” 的 状态 2 在 时 间 步 2 时 的 向 前 概率 。 我 们 在 计算 这 个 概率 时 ， 要 
把 在 时 间 步 1 的 概率 a 加 以 扩充 ， 通 过 两 条 路 径 : 


一 条 路 径 是 Start--C-H， 其 向 前 概率 P (ClStart) *P (3|C) *P 
(HIC) *P (1H) ， 也 就 是 


a, (1) *P (HIC) *P (1|H) ; 


55 — Fi (ee Start H^ H,. HA BR23-P (H|Star) * P (3|H) 
*P (HJH) *P (1]H) ， 也 就 是 


a, (2) *P (HIH) *P (1IH) ° 


把 这 两 个 向 前 概率 相 加 ， 得 到 a。 (2) 的 向 前 概率 为 : 


a,( 2)=P( ClStart ) * P(3IC)*P HIC) « PCIIH ) 
+ PlHilStart ) * P 31H) « f HIH)xP(1IH) 
=oa(1)x*P HIC)*R1IH) + oa(2)*P HIH) *PC1IH). 
=0.2*0.1*0.4*0.2 + 0.8*0.4*0.7*0.2 


=0. 02 « 0.08 + 0.32 *0.14 
=0.001 6 + 0.0448 
=0. 046 4 


这 意味 着 ， 从 开始 到 cold 再 到 hot 以 及 从 开始 到 hot 再 到 hot 的 天 气 状 
态 ， 吃 冰淇淋 数 为 “3 1” 的 观察 似 然 度 是 0.046 4。 


用 同样 的 方法 ， 为 我 们 可 以 计算 出 在 时 间 步 3 和 状态 1 的 向 前 概率 
a, (1) 以 及 在 时 间 步 3 和 状态 2 的 向 前 概率 a。 Q) 。 


向 前 概率 a。 (1) 把 在 时 间 步 2 的 概率 ag。 (1) Moa, (2) 加 以 扩 
充 ， 通 过 两 条 路 径 : 


一 条 路 径 把 时 间 步 2 的 概率 a。 (1) 扩充 到 时 间 步 3 和 状态 1， 其 向 


a, (1) 'P (CIC)“P (3|C) =0.054* 0.6* 0.1=0.003 24 


一 条 路 径 把 时 间 步 2 的 概率 ag。 (2) 扩充 到 时 间 步 3 和 状态 1， 其 向 


a, (2) *P (CIH) *P (3|C) =0.046 4* 0.3” 0.1=0.001 392 


故 向 前 概率 
Qa 1)=o(1)*P CIC)*P 3IC)+o,(2)*P CIH)* FC31C) 
=0. 003 24 +0. 001 392 
=0. 004 632 


这 意味 着 ， 在 向 前 概率 ag，(1) 的 基础 上 上， 继续 扩 充 到 cold 以 在 向 
前 概率 oo (2) 的 基础 上 上， 继续 扩充 到 cold 的 天 气 状态 ， 吃 冰淇淋 数 
为 “3 1 3” 的 观察 似 然 度 是 0.004 623 ° 


向 前 概率 a。 (2) 把 在 时 间 步 2 的 概率 ag。 (1) 和 o (2) 加 以 扩 
充 ， 通 过 男 外 两 条 路 径 : 


一 条 路 径 把 时 间 步 2 的 概率 (1) 扩充 到 时 间 步 3 和 状态 2， 其 向 


a, (1) *P (H|C) *P (3|H) =0.054*0.4*0.4=0.008 64 


一 条 路 径 把 时 间 步 2 的 概率 a。 (2) 扩充 到 时 间 步 3 和 状态 2， 其 向 


o, (2) *P (HIH) *P (3/H) =0.046 4*0.7*0.4=0.012 992 


故 向 前 概率 
a(2)-o(1)* HIC) K 31H) +0,(2)*P( HIH) *P(31H) 
— 0. 000 864 +0. 012 992 
=0. 021 632 


这 意味 着 ， 在 向 前 概率 a。 (1) 的 基础 上 ， 继 续 扩充 到 hot 以 在 向 
前 概率 a。 (2) 的 基础 上 ， 继 续 扩充 到 hot 的 天 气 状态 ， 吃 冰淇淋 数 为 “3 
1 3” 的 观察 似 然 度 是 0.021 632 ° 


图 9.8 是 计算 向 前 网 格 的 一 个 新 的 单元 中 的 概率 值 归 纳 步 又 的 另外 
一 种 可 视 化 的 表示 方法 。 


R 
— 

U 
— 
E 
— 

U 
— 


P @— (4) 
04,2) cQ) A H 一 

(9 (9) (0 (95) 
o, (1) UP de Bion 

(2) (q) (4) (2) 


图 9.8 ”在 向 前 网 格 中 计算 一 个 单独 的 成 分 a，(i) 向 前 概率 的 可 视 化 表示 方法 。 


计算 时 ， 把 前 面 所 有 的 值 a 加 起 来 ， 用 转换 概率 ai 加 权 ， 再 乘 以 
观察 概率 bi (o,) 。 在 HMM 的 很 多 应 用 中 ， 转 移 概 率 有 不 少 是 为 零 
的 ， 所 以 ， 并 不 是 所 有 前 面 的 状态 都 能 够 给 当前 状态 的 向 前 概率 做 出 
页 献 。 图 9.8 中 ， 隐 藏 状态 用 圆圈 表示 ， 观 察 用 方 框 表示 。 有 阴影 的 结 
点 都 与 (i) 的 概率 计算 有 关 。 图 中 没有 显示 初始 状态 和 终结 状态 。 


显而易见 ， 采 用 向 前 算法 来 计算 观察 似 然 度 可 以 表示 出 局 部 的 观 
察 序列 似 然 度 。 在 实际 应 用 中 ， 这 种 局 部 的 观察 似 然 度 比 使 用 联合 概 
率 表示 的 全 局 的 观察 似 然 度 更 加 有 用 。 上 所 以 ， 癌 前 算法 是 一 种 简单 而 
有 用 的 算法 。 


现在 ， 我 们 给 出 向 前 算法 的 递归 定义 。 递 归 定 义 陈述 如 下 : 
1. 初始 化 : 


a, (j) -agb; (o,) 1<j<N 


2. 递归 〈 由 于 状态 0 和 状态 F 没 有 发 射 概率 ) : 


N 
XE PEL > a, a,b a Leja NA Sta 
i-l 


N 
a,( 7) = Y a, abf 0, ^ 1 <;sN\,l st<f 
i-i 


PO CBAR EA 


在 很 多 如 像 HMM 这 种 包含 隐藏 变量 的 模型 中 ， 确 定 隐 藏 在 某 个 观 
察 序 列 后 面 的 变量 序列 的 工作 ， 叫 做 解码 (decoding) ° 


例如 ， 在 前 一 廊 那 个 吃 冰 淇 淋 的 例子 中 ， 给 定 冰 淇 淋 的 一 个 观察 
序列 “3 1 3” 和 一 个 HMM， 解码 器 (decoder) 的 任务 就 是 发 现 隐 泸 在 观 
察 序列 “3 1 3” 后 面 的 最 优 天 气 序列 (例如, HHH) 。 


更 加 形式 化 地 说 ， 给 定 一 个 HMM = (A, B) 和 一 个 观察 序列 O=oi 
5075+, Op 作为 输入 ， 找 出 概率 最 大 的 状态 序列 Q=qi do qs Gp. BLAH 
做 解码 (decoding) 。 


我 们 或 许可 以 使 用 向 前 算法 来 找 出 隐藏 在 观察 序列 之 后 最 好 的 状 
态 序 列 。 对 于 每 一 个 可 能 的 隐藏 状态 序列 (HHH, HHC, HCH ， 等 
等 ) ， 运 行 向 前 算法 ， 计 算 观 察 序列 对 给 定 的 隐藏 状态 序列 似 然 度 ; 
然后 我 们 选 出 具有 最 大 观察 似 然 度 的 隐藏 状态 序列 ， 从 而 完成 解码 的 
任务 。 不 过 ， 从 前 一 市 我 们 清楚 地 知道 ， 如 果 状 态 序 列 的 数量 很 大 ， 
这 是 很 难 做 到 的 ， 这 是 因为 向 前 算法 的 计算 复杂 度 为 O(N?T) ， 是 指 
ZI ° 


我 们 显然 不 能 这 样 做 。HMM 最 常见 的 解码 算法 是 美国 计算 机 专家 
韦 特 比 (Viterbi) 提出 的 韦 特 比 算法 (Viterbi algorithm) ° 


韦 特 比 算法 是 一 种 动态 规划 算法 (dynamic programming 

algorithm) ， 它 使 用 动态 规划 网 格 。 韦 特 比 算法 与 最 小 编辑 距离 

(minimum edit distance) 算法 非常 相似 ， 这 是 动态 规划 算法 的 另外 一 
种 变 体 。 


图 9.9 是 韦 符 比 网 格 的 一 个 例子 。 图 中 ， 隐 藏 状态 用 圆圈 表示 ， 观 
察 用 方 框 表示 ， 非 实 的 日 圆圈 表示 非法 的 转移 。 图 9.9 说 明了 对 于 观察 
序列 “3 1 3”， 如 何 计算 最 佳 的 隐藏 状态 序列 。 其 基本 思想 是 按照 观察 
序列 从 左 到 右 的 顺序 来 填充 网 格 。 网 格 的 每 一 个 单元 v，(j) 表示 对 于 
给 定 的 目 动机 入，HMM 在 看 了 头 { 个 观察 并 通过 了 概率 最 大 的 状态 序列 
do; qio Ger 之 后 在 状态 j 的 概率 。 每 一 个 单元 w G) 的 值 是 递归 地 计 
算 的 ， 计 算 时 选取 引导 我 们 到 达 这 个 单元 的 概率 最 大 的 路 径 。 形 式 地 
说 ， 每 一 个 单元 表示 如 下 的 概率 : 
a end) fend) end 


y \ 
v,(2)=.32 v,(2)=max(.32*.014, .02*.08)=.044 8! N 
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图 9.9 对 于 吃 冰 淇 淋 事 件 “3 1 3"， 计 算 通过 隐藏 状态 空间 的 最 佳 路 径 的 韦 特 比 网 格 。 


v(j) = max Pgo, Qian qiyoiyo (09 q, EJLA) 


注意 ， 我 们 选取 最 大 限度 地 覆盖 前 面 所 有 可 能 的 状态 序列 
p PX ，， 来 代表 概率 最 大 的 路 径 。 与 其 他 所 有 的 动态 规划 算法 一 
样 ， 韦 特 比 算法 递归 地 填充 每 一 个 单元 。 如 果 我 们 已 经 计算 了 每 一 个 
状态 在 时 刻 t1 的 概率 ， 就 能 够 选取 把 我 们 引导 到 当前 单元 的 概率 最 大 
的 路 径 ， 来 计算 韦 特 比 概率 。 在 时 刻 r1， 对 于 给 定 的 状态 q ，v，(j) 
的 值 按 如 下 公式 计算 


oi j) = max»,.,( 7 )a,b{ o, ) 
i-1 


此 公式 用 于 计算 在 时 刻 t-1 的 时 候 使 用 扩充 前 面 路 径 的 方法 来 计算 
韦 特 比 概率 ， 计 算 时 ， 要 把 下 面 的 3 个 因素 相 乘 : 


v(i) 从 前 面 的 时 间 步 算 起 的 前 面 的 韦 特 比 路 径 概率 
( previous Viterbi path probability ) 

au 从 前 面 状态 q; 到 当前 状态 q; 的 转移 概率 ( transition 
probability ) 

b,Co, ) 在 给 定 的 当前 状态 j ,观察 符号 o 的 状态 观察 似 然 度 


( state observation likelihood ) 


图 9.10 是 韦 特 比 算法 的 伪 代 码 。 


function FORWARD ( observations of len T, state-graph of len N ) returns 
forward-prob 


create a probability matrix forward | N +2, T | 
for each state s from 1 to N do ; initialization step 
forward | s, 1 lay, * bo, ) 
for each time step t from 2 to T do ;recursion step 
for each state s from 1 to N do 


N 
forward | s, 1] — Y forward | s',t-1] * a, , * b Co,) 
STI 


; ; termination step 
Ip 


N 
forward [ Vp? T Je x forward [s, T] * a, 
fel 


return forward [ Vp? T | 


图 9.10 ” 韦 特 比 算法 的 伪 代 码 


使 用 韦 特 比 算法 时 ， 对 于 给 定 的 观察 序列 和 HMM A= (A,B) , HMM 
把 最 大 的 似 然 度 指派 给 观察 序列 ， 算 法 返回 状态 路 径 ， 从 而 找 出 最 优 
的 隐藏 状态 序列 。 


在 图 9.9 中 ， 我 们 首先 计算 在 时 间 步 1 的 韦 特 比 概率 : 
在 时 间 步 1 和 状态 1 的 概率 为 : 


V, (1) =P (ClStart) *P (3|C) =0.2*0.1=0.02 
在 时 间 步 1 和 状态 2 的 概率 为 : 
V, (2) =P (H|Star) *P (3/H) =0.8*0.4=0.32 


在 时 间 步 2 状态 1 的 概率 为 vy。 (1) 。 我 们 在 计算 这 个 概率 时 ， 要 考 


虑 来 自 时 间 步 1 的 两 条 路 径 : 一 条 路 径 是 Start-C-C， 其 概率 P 
(C|Stat) *P (3IC) *P (CIC) *P (1C) ; 另 一 条 路 径 是 


Start~ 了 ~C， 其 概率 为 P (HlStart) *P (3H) *P (CIH) *P (1IC) œ 
韦 特 比 算法 要 对 于 这 两 个 路 径 的 概率 进行 比较 ， 取 其 最 大 者 : 


VCI) =max (PC ClStat ) * PO31C) « K CIC) C HC), PC Hl Start ) * K 31H) * PC CIH) «KC HC )) 
max ( 0.2 «0.1 «0.6 «0.5, 0.8 «0.4 *0.3 *0.5) 
= max ( 0.02 * 0.30, 0.32 «0.15 ) 
= max ( 0.006, 0.048 ) 
20.048 


可 见 ， 在 时 间 步 2 状态 1 的 概率 Vy。 (1) 等 于 0.048， 在 这 种 情况 
下 ， 观 察 序列 “31” 对 应 的 隐藏 状态 为 “HC”。 


在 时 间 步 2 和 状态 2 的 概率 为 v (2) 。 我 们 在 计算 这 个 概率 时 ， 要 
考虑 来 自 时 间 步 1 的 两 条 路 径 : 一 条 路 径 是 Start~C-H， 其 概率 P 
(C|Stat) *P (3C) *P (HIC) *P (1H) ; 另 一 条 路 径 是 
Stat2H-^H, EEX XP (H|Stat) *P (3H) *P (HJH) *P (GH) ° 
韦 特 比 算法 要 对 于 这 两 个 路 径 的 概率 进行 比较 ， 取 其 最 大 者 : 


V,(2) max ( P ClStart ) «K 31C) « FK HIC) « C HB), PCHIStart ) PR 31H) FR HIH) KC HH )) 
=max (0.2 «0.1 *0.4+*0.2, 0.8 *0.4 *0.7*0.2) 
( 


= max ( 0.02 «0.8, 0.32 «0.14 ) 
- max ( 0.0016, 0.0448 ) 
- 0. 0448 


可 见 ， 在 时 间 步 2 和 状态 2 的 概率 v， (2) 等 于 0.044 8， 在 这 种 情况 
下 ， 观 察 序列 “3 1” 对 应 的 隐藏 状态 为 “H H” ° 


在 时 间 步 2， 我 们 再 对 V。 (1) Mv, (2) 这 两 个 韦 特 比 概率 进行 
比较 ， 取 其 最 大 者 为 V，(1) =0.048， 由 此 可 知 ， 从 时 间 步 1 到 时 间 步 
2， 对 应 于 观察 序列 “3 1”， 隐 藏 的 状态 应 当 为 “<H C”， 而 不 是 “H H”。 


使 用 韦 特 比 算 法 ， 我 们 继续 计算 时 间 步 3 的 韦 特 比 概率 ， 取 其 最 大 
者 对 应 的 路 径 为 观察 序列 “3 1 3” 后 面 隐藏 的 状态 序列 。 从 而 得 到 解码 
的 结果 。 

在 时 间 步 3 和 状态 1 的 概率 为 V (1) ， 我 们 在 时 间 步 2 的 最 大 概率 
v, (1) 的 基础 上 来 计算 这 个 概率 ， 其 路 径 是 Start~H-C-C， 其 概率 
zEV, (1) *P (CIC) *P (3|C) : 


V4 (1) =V, (1) *P (CIC) *P (3|C) =0.048*0.6*0.1=0.002 
88 


在 时 间 步 3 和 状态 2 的 概率 为 V (2) ， 我 们 在 时 间 步 2 的 最 大 概率 
v, (1) 的 基础 上 来 计算 这 个 概率 ， 其 路 径 是 Start~H-C-~H， 其 概率 
是 V (1) *P (HIC) *P (3IH) : 


V4, (2) =V, (1) *P (HIC) *P (3/H) =0.048*0.4*04=0.007 68 


比较 在 时 间 步 3 的 韦 特 比 概率 V。 (D div, (2) ， 由 于 V3 (2) > 
V3 (1) ， 故 取 最 大 概率 V。 (2) =0.007 68， 其 对 应 的 隐藏 状态 为 
Start2 H^ C^ H ° Xue E S ERNA AAE 


韦 符 比 算法 与 向 前 算法 的 区 别 是 : 


1. 韦 特 比 算法 要 在 前 面 路 径 的 概率 中 选取 最 大 值 (max) ， 而 向 前 
算法 则 要 计算 其 总 和 (sum) ， 除 此 之 外 ， 韦 特 比 算法 和 向 前 算法 是 一 
样 的 。 


2. 韦 特 比 算法 还 有 一 个 成 分 征 回 前 算法 没有 的 ， 这 个 成 分 吏 是 反问 
指针 (backpointer) 。 其 原因 在 于 向 前 算法 需要 产生 一 个 观察 序列 似 然 
度 ， 而 韦 特 比 算法 必须 产生 一 个 概率 和 可 能 性 最 大 的 状态 序列 ， 从 而 
达到 解码 的 目的 。 当 我 们 计算 这 个 状态 序列 的 时 候 ， 要 回 过 去 检查 引 
导 到 每 一 个 状态 的 隐藏 状态 的 路 径 ， 如 图 9.11 所 示 ， 要 从 终点 到 开始 点 
进行 反 向 妃 踪 ， 找 出 最 佳 路 径 ， 这 叫做 韦 特 比 反 向 退 踪 (Viterbi 
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韦 特 比 反 向 追踪 


图 9.11 


在 韦 特 比 反 向 追踪 时 ， 当 我 们 把 每 一 条 路 径 伸 张 到 一 个 新 的 状态 
以 便 过 渡 到 下 一 个 观察 时 ， 我 们 把 一 个 反 向 指针 指向 《图 9.11 中 用 破碎 
的 虚线 表示 ) 引导 我 们 到 达 这 个 状态 的 那 条 最 住 路 径 。 

例如 ， 我 们 在 是 时 间 步 2 计算 出 V。 (1) =0.048 为 最 大 值 之 后 ， 还 
要 进行 反 向 追踪 ， 通 过 反 向 指针 返回 到 时 间 步 1 和 初始 状态 Start， 找 到 
RIEKIN Start- H^ C。 我 们 在 时 间 步 3 计算 出 V。 (2) =0.007 68 为 
最 大 值 之 后 ， 还 要 进行 反 向 追踪 返回 到 时 间 步 2、 时 间 步 1 和 初始 状态 


Start, 1X ads He WLS “313” Ja EREN Start > Ho CA H ° it 
是 韦 特 比 算法 的 解码 结 


现在 ， 我 们 回 过 头 去 ， 用 HMM 和 韦 特 比 算法 的 观点 ， 继 续 讨论 随 
机 词类 标注 的 问题 。 


“对 某 个 单词 选取 


我 们 知道 ， 在 所 有 的 随机 词类 算法 后 面 的 直觉 是 
这 里 “单词 "是 观察 序 


最 可 能 的 标记 ”这 种 方法 的 最 简单 的 概括 。 在 
列 ,，“ 最 可 能 的 词类 标记 ”就 是 隐藏 的 “状态 序列 ”。 


爱 依 斯 讷 所 举 的 天 于 冰淇淋 的 例子 中 ， 吃 冰淇淋 数量 是 观察 序 
列 ， 天 气 冷 热 变化 的 情况 是 状态 序列 ， 使 用 隐 马 尔 科 夫 模 型 和 韦 特 比 
算法 ， 束 可 以 根据 吃 冰 淇 淋 的 数量 推测 出 隐藏 在 后 面 的 天 气 冷 热 变化 
的 状态 序列 。 


在 随机 词类 标注 算法 中 ， 单 词 是 观察 序列 ， 相 当 于 爱 依 斯 讷 例子 
中 的 吃 冰 诺 淋 的 数量 ， 词 类 标记 是 隐藏 的 状态 序列 ， 相 当 于 爱 依 斯 讷 
例子 中 的 隐藏 的 天 气 冷 热 变化 的 状态 序列 。 因 此 ， 我 们 可 以 仿照 爱 依 
斯 讷 例子 中 的 方法 来 进行 随机 词类 标注 。 


对 于 一 个 给 定 的 句子 或 单词 序列 ， 我 们 使 用 HMM 词 类 标注 算法 来 
选择 使 得 下 面 的 公式 为 最 大 值 的 标记 序列 : 


| 
j 
在 进行 词类 标注 时 ， 人 句子 Secretariat is expected to race tomorrow H? 


的 race 是 一 个 动词 或 名 词 的 兼 类 词 ， 它 可 以 标注 为 VB， 也 可 以 标注 为 
NN， 我 们 把 第 三 章 中 的 图 3.32 复 制 如 下 : 


在 图 9.12 中 ，race 是 观察 序列 ， 隐 藏 在 race 后 面 的 VB 或 NN 是 状态 
序列 。 我 们 的 任务 是 使 用 HMM 来 决定 隐藏 在 race 后 面 的 词类 标记 究竟 
是 VB， 还 是 NN。 从 原理 上 说 ， 这 与 爱 依 斯 讷 的 冰 淇 麻 例子 中 根据 吃 冰 
淇 淋 的 数量 来 推测 天 气 变化 的 状态 序列 是 一 样 的 。 


Secretariat expected Tace tomorrow 
(b) = 
Secretariat is expected to race tomorrow 


图 9.12 ”race 的 标记 可 以 为 VB 或 NN ( 引 自 前 面 第 三 章 中 的 图 3.32 


根据 HMM 标 注 算法 的 公式 可 知 ， 如 果 我 们 试图 在 序列 to race 中 ， 
对 于 race 的 标记 在 NN 和 VB 之 间 进 行 选择 ， 我 们 应 该 从 下 面 两 个 概率 
中 ， 选 择 概 率 比 较 大 的 一 个 作为 race 的 标记 : 


P (VBITO) P (race|VB) 
和 
P (NNI|TO) P (race|NN) 


根据 Brown 语 料 库 和 Switchboard 语 料 库 的 统计 数据 ， 标 记 序 列 的 概 


P (NNITO) =0.021 
P (VB|TO) =0.34 


词汇 似 然 度 为 : 


P (racelNN) =0.000 41 
P (racelVB) =0.000 03 


如 有 果 我 们 把 标记 序列 概率 与 词汇 似 然 度 相 乘 ， 得 到 如 下 结 


P ( (VBITO) P (race/VB) =0.34*0.000 03-0 .000 01 
P (NN|TO) P (race[NN) =0.021*0.000 41=0.000 007 


HFP ( (VBITO) P (raee|VB) 的 值 0.000 01 大 于 P (NNITO) P 
(raceINN) 的 值 0.000 007， 因 此 ， 我 们 应 当 把 race 的 标记 确定 为 VB 。 
这 就 是 正确 的 词性 标注 结 


当然 ， 一 个 真正 的 HMM 标 注 算法 不 应 该 只 针对 一 个 单独 的 捍 词 选 
择 最 好 的 标记 ， 而 应 该 针对 整个 的 句子 选择 最 好 的 标记 序列 。 这 样 句 
子 标记 序列 的 计算 是 很 复杂 的 ， 但是， 从 爱 依 斯 讷 所 举 的 冰淇淋 的 例 
子 不 难看 出 ， 使 用 韦 特 比 算法 ， 我 们 完全 可 以 胜任 这 样 复杂 的 序列 标 
记 的 计算 工作 。 


第 五 玉 ” 同 前 一 同 后 算法 


我 们 来 讨论 HMM 的 第 三 个 问题 : HMM 的 参数 自动 学 习 问 题 ， 也 
就 是 矩阵 A 和 B 的 自动 学 习 问 题 。 形 式 地 说 ， 所 谓 “ 学 习 ” (leaming) , 
就 是 对 于 给 定 观察 序列 0 和 HMM 中 可 能 状态 的 集合 ， 来 自动 地 学 习 
HMM 的 参数 A 和 B ° 


这 种 学 习 算 法 的 输入 是 无 标记 的 观察 序列 0 和 并 在 的 隐藏 状态 Q。 


例如 ， 在 冰淇淋 事件 的 问题 中 ， 我 们 将 从 观察 序列 O={1 3, 2, .…} 
和 隐藏 状态 集合 H 和 C 开 始 进行 学 习 。 在 词类 标注 的 问题 中 ， 我 们 将 从 
观察 序列 O={fwl , Wo, wa , …} 和 隐藏 状态 NN, NNS, VBD, IN, VB，... 等 


等 开始 进行 学 习 。 


训练 HMM 的 标准 算法 是 向 前 -向 后 算法 ( forward-backward 
algorithm) 或 者 叫做 饱 姆 - 韦 尔 奇 算法 (Baum-Welch algorithm) ， 这 是 
期 望 最 大 化 算法 (Expectation-Maximization algorithm ， 简 称 EM 算 法 ) 
的 一 种 特殊 情形 。 这 个 算法 将 帮助 我 们 训练 HMM 的 转移 概率 A 和 发 射 
概率 B。 


我 们 在 开始 时 可 以 这 样 来 考虑 : 我 们 训练 的 不 是 一 个 隐 马 尔 可 夫 
模型 ， 而 是 一 个 普通 的 马尔 可 夫 链 。 由 于 在 马尔 可 夫 链 中 的 状态 是 可 
以 观察 到 的 ， 所 以 我 们 就 有 可 能 在 观察 序列 上 运行 这 个 模型 ， 并 且 直 
接 看 出 我 们 通过 了 哪 一 条 路 径 以 及 每 一 个 观察 符号 是 哪 一 个 状态 生成 
的 。 当 然 ， 在 马尔 可 夫 链 中 ， 没 有 发 射 概率 B。 实 际 上 ， 我 们 可 以 把 马 
尔 可 夫 链 看 成 是 退化 的 隐 马 尔 可 夫 模 型 ， 其 中 所 有 观察 符号 的 概率 b 都 
为 1.0， 所 有 其 他 符号 的 概率 b 都 为 零 。 这 样 一 来 ， 在 这 个 退化 的 隐 筷 尔 
可 夫 模 型 中 ， 我 们 需要 训练 的 概率 仅仅 是 转移 概率 矩阵 A。 


在 状态 i 和 状态 j 之 间 的 一 个 特定 的 转移 概率 ai 的 最 大 似 然 估计 可 以 
通过 转移 的 次 数 来 计算 ， 我 们 把 转移 的 次 数 记 为 C (i-j) ， 然 后 用 从 
状态 i 开始 的 所 有 的 转移 次 数 来 除 它 ， 对 它 进行 归 一 化 ， 计 算 公 式 如 
下 : 


C ij) 
du ORO 


在 马尔 可 夫 链 中 ， 因 为 我 们 知道 所 处 的 状态 是 什么 ， 所 以 我 们 可 
以 直接 地 计算 这 个 概率 。 然 而 ， 在 HMM 中 ， 因 为 我 们 不 知道 ， 对 于 一 
个 给 定 的 输入 ， 通 过 机 器 的 状态 究竟 要 走 哪 一 条 路 径 ， 所 以 ， 我 们 不 
能 从 所 观察 的 句子 或 句子 的 集合 直 搂 地 来 计数 ，。 


解决 这 个 问题 ， 鲍 姆 - 韦 尔 奇 算法 提出 了 两 个 符合 直觉 的 思路 。 


第 一 个 思路 是 反复 地 (iteratively) 估计 所 得 的 计数 。 从 转移 概率 
和 观察 概率 的 一 个 估计 值 开 始 ， 反 复 地 使 用 这 些 佑 计 概 率 来 推出 越 来 
越 好 的 概率 。 


第 二 个 思路 是 ， 对 于 一 个 观察 ， 计 算 它 的 向 前 概率 ， 从 而 得 到 我 
们 的 估计 概率 ， 然 后 ， 把 这 个 佑 计 的 概率 量 ， 在 对 于 这 个 回 前 概率 有 
贡献 的 所 有 不 同 的 路 径 上 进行 分 摊 。 


为 了 理解 这 种 思路 的 算法 ， 我 们 需要 定义 一 个 与 向 前 概率 有 关 的 
概率 ， 把 它 叫 做 向 后 概率 (backward probability) ， 记 为 B。 


向 后 概率 B 是 对 于 给 定 的 自动 机 和 ， 在 状态 i 和 时 刻 t 观 看 从 下 一 个 时 
刻 t+1 到 终点 的 观察 概率 ， 用 公式 来 表示 如 下 : 


D, (i) =P (0,4 , Ou » «5 OT |G, =i, 入 ) 


我 们 使 用 与 计算 向 前 概率 相似 的 归纳 法 来 计算 向 后 概率 : 


1. 初始 化 : 


By (i) =a,p, 1<i<N 


2. 递归 〈 因 为 状态 0 和 dr 是 非 发 射 的 ， 所 以 ， 在 这 两 个 状态 的 发 射 
概率 为 0) : 


Bhi) = Wajb(o, Balj), 1 sis N,l<t<T 


j=l 


3. 结束 : 


N 


PCOLA) = a ss V ayb( 0,08, C7) 


js] 


图 9.13 说 明了 回 后 归纳 的 步骤 o 


图 9.13 ”向 后 归纳 的 步骤 


从 图 9.13 可 以 看 出 ， 在 计算 p，(i) 的 时 候 ， 需 要 对 值 ps， G) 使 
用 它们 的 转移 概率 ay 和 它们 的 观察 概率 b。 (Ou) 进行 加 权 ， 然 后 连续 
地 把 这 些 ps G) 的 值 加 起 来 求 和 。 


现在 让 我 们 来 说 明 ， 在 机 器 中 的 路 径 实际 上 是 隐藏 的 情况 下 ， 怎 
样 使 用 向 前 概率 和 向 后 概率 从 观察 序列 来 计算 转移 概率 ai 和 观察 概率 bi 
(a) 。 


首先 让 我 们 来 说 明 如 何 估计 4; 。 我 们 把 公式 
CC ij) 
>》 Mig) 
qeQ 


HEN PEE TGRIBIE ° 


。 从 状态 i 到 状态 j 转移 的 期 望 数 
l 从 状态 i 转移 的 期 望 数 
怎样 来 计算 这 个 公式 中 的 分 子 呢 ?我 们 这 里 是 根据 直觉 来 计算 
的 。 假 定 我 们 对 于 给 定 的 转移 i-j 在 观察 序列 中 特定 的 时 刻 t 的 发 生 这 个 
事件 有 菏 个 概率 估计 。 如 采 我 们 对 于 每 一 个 特定 的 时 刻 t 都 知道 这 个 概 
率 ， 那 么 ， 我 们 避 ® 可 以 把 所 有 的 时 刻 t 的 概率 加 起 来 求 和 ， 从 而 估计 出 
FAB o JIT RY ° 


更 加 形式 地 说 ， 对 于 给 定 的 观察 序列 和 模型 ， 让 我 们 把 概率 和 XE 
义 为 在 时 刻 t 状 态 为 i 且 在 时 刻 t+1 状 态 为 的 转移 概率 : 


A (i, j) =P (q, =i, Qt+1 =j|O, 入 ) 


为 了 计算 5 ， 我 们 首先 来 计算 一 个 近似 于 5 的 概率 ， 这 个 概率 包含 
的 观察 概率 与 和 不同 ， 我 们 把 它 叫做 “ 准 和 ” (not-quite-£ ) ， 记 为 not- 


quite-£, ， 注 意 ， 这 个 概率 中 0 的 条 件 与 上 面 的 公式 不 同 。 


not - quite - £ (i,j) =P (q,=i, q., =j, OJA) 


图 9.14 说 明了 用 来 计算 notr-quite-&t 的 各 个 概率 ， 它 们 是 : ARI 
上 的 转移 概率 ， 在 该 弧 之 前 的 概率 kx， 在 该 弧 之 后 的 概率 P， 以 及 恰恰 
在 该 弧 之 后 的 符号 的 观察 概率 。 


图 9.14 ”计算 在 时 刻 t 状 态 为 i 且 在 时 刻 t+1 状 态 为 的 联合 概率 。 


在 图 9.14 中 ， 说 明了 需要 结合 起 来 产生 概率 P (q =i, q ;1 =j, OD) 
的 各 个 概率 ， 概 率 a，(i) . BEBO, (j) ， 转 移 概 率 ai ， 以 及 观察 概 
率 b (Orei M 


把 这 4 个 概率 相 乘 就 得 到 not-quite-5 ， 计 算 公式 如 下 : 


not - quite-E (i,j) =a, (i) a; bi (ou ) Bue: Q) 


概率 定理 告诉 我 们 ， 为 了 从 not-quite- 引 来 计算 ， 我 们 可 以 用 P 
(OJA) 来 除 not-quite-5 ， 因 为 : 


PX, FIJO 
PC YI Z) 


对 于 给 定 的 模型 ， 观 察 概 率 束 是 整个 语 段 的 向 前 概率 ， (或 者 ， 
换 一 种 说 法 ， 整 个 语 段 的 向 后 概率 ) ， 因 此 ， 它 可 以 有 许多 方法 来 计 
A: 


PR XIY,Z)- 


ROlX Sel N)98L.1) = Sats ery) 
j=l 
HOR, Te, 的 最 后 的 等 式 就 是 : 


23 a. i a,b 0,41 )B, CI) 
£(i,j) = al N) 


ARAIRE Bl BK AS BK BG E ER PUR C EAA e AFE 
面 公 式 中 ai 的 佑 计 ， 我 们 现在 仅仅 再 需要 一 个 东西 就 行 了 ， 这 就 是 由 
状态 i 转移 出 的 所 有 的 期 望 次数 。 我 们 可 以 把 从 状态 i 出 发 的 所 有 的 转移 
加 起 来 整 可 以 得 到 它 。 


FE 4, 最 后 的 计算 公式 : 


EEG j) 
EEGI) 


我 们 还 需要 一 个 重新 计算 观察 概率 的 公式 。 这 是 在 一 个 给 定 的 状 
态 j， 观 察 词汇 V 中 的 一 个 给 定 的 符号 w BOREAS, 3879 (v) o 我们 使 
用 下 列 公式 束 可 以 把 它 算出 来 : 


在 状态 7 和 观察 符号 v, 的 期 望 次 数 
在 状态 7 的 期 望 次 数 
为 此 ， 我 们 需要 知道 在 时 刻 t 和 状态 j 的 概率 ， 我 们 把 这 个 概率 记 为 
yv Gs 


ie 
yj 


b(v,) = 


y Q) =P (qsjlo, A) 
这 里 ， 我 们 需要 再 一 次 把 观察 序列 包括 到 概率 中 来 进行 计算 : 
it Pg 23,9013) 
Bete NOTA) 
图 9.15 说 明了 如 何 计算 在 时 刻 t 和 状态 的 概率 y，(j) 。 注 意 ， 这 里 


的 y 实 际 上 古 5 的 一 种 退化 的 情况 。 因 此 ， 这 个 图 束 像 把 图 9.14 中 的 状态 
i 和 状态 j 折 对 起 来 而 形成 的 一 个 新 版 本 。 


t 
= 


图 9.15 ”计算 在 时 刻 t 和 状态 的 概率 y，(j) 


正如 图 9.15 所 说 明 的 ， 上 面 公式 中 的 分 子 部 分 等 于 向 前 概率 和 向 后 
因此 我 们 得 到 如 下 公式 : 


T o j DBC) 
ne — ROLA 


现在 我 们 准备 来 计算 b。 对 于 分 子 部 分 ， 我 们 对 所 有 的 时 间 步 又 t 求 
HE, Wo, 就 是 我 们 感 兴趣 的 符号 v。 对 于 分 母 部 
。 其 结 末 将 是 当 我 们 在 状态 j 


一品 


概率 的 乘积 ， 


Aly, (j) > 
分 ， 我 们 对 所 有 的 时 间 步 又 t 求 总 和 y，0j) 


看 到 符号 vi 的 时 间 的 百分数 : 
T . 
^ 2. ps. GT J ) 
六 
在 这 个 公式 中 ， 记 号 D ，，， 的 意思 是 “在 时 刻 t 的 观察 为 w 时 的 


所 有 时 间 上 的 总 和 ”。 


对 于 一 个 观察 序列 O， 假 定 我 们 已 经 有 了 转移 概率 A 和 观察 概率 B 
的 初始 估计 ， 现 在 上 述 公 式 给 我 们 提供 了 一 种 方法 来 “ 重 估 ” (re- 
estimate) 转移 概率 A 和 观察 概率 B 的 值 。 


这 样 的 “ 重 佑 ”是 迭代 的 同 前 - 癌 后 算法 的 核心 。 


癌 前 -向 后 算法 从 HMM 的 参数 = (A,B) 的 某 个 初始 估计 开始 ， 然 

后 迭代 地 运行 两 个 步 又 。 像 其 他 的 期 望 最 大 算法 (expectation- 

maximization algorithm， 简 称 EM 算 法 ) 一 样 ， 向 前 -向 后 算法 的 这 两 个 

步骤 是 : 一 个 步骤 是 期 望 化 步骤 (expectation step) ， 或 者 叫做 E- 步 又 

(E-step) ， 一 个 步骤 是 最 大 化 步骤 (maximization step) ， 或 者 叫做 
M- 步 又 (M-step) ° 


在 E- 步 又 ， 我 们 根据 前 面 的 A 和 B 的 概率 来 计算 期 望 的 状态 占用 数 y 
和 期 望 的 状态 转移 数 E。 在 M- 步 台 ， 我 们 使 用 y 和 来 重 估 新 的 A 和 B 的 
概率 。 这 样 不 断 地 重 佑 转移 概率 A 和 发 射 概率 B， 一 直到 获得 的 满意 的 
RAIE © 


图 9.16 古 同 前 一 同 后 算法 的 伪 代 码 。 


function FORWARD-BACKW ARD ( observations of len T, output vocabulary 
V, hidden state set Q ) returns HMM =( A, B) 


initialize A and B 


iterate until convergence 


y G7 


(JB) 
See, V tandj 


arl qp ) 
a i )a; b 96,4 JB, JJ 
arl qr ) 


V t, i, andj 


return A, B 


图 9.16” 问 前 一 问 后 算 


虽然 从 原则 上 说 ， 使 用 这 样 的 同 前 一 癌 后 算法 计算 机 可 以 完全 无 
和 导 地 目 动 学 习 到 转移 概率 A 和 发 射 概率 B 的 参数 ， 但 是 ， 在 实际 上 ， 
切 始 条 件 是 非常 重要 的 。 下 是 由 于 这 样 的 原因 ， 使 用 癌 前 一 辣 后 算法 
时 ， 常 党 要 给 出 一 些 多 余 的 初始 信息 。 例 如 ， 在 语音 识别 中 ，HMM 的 
结构 实际 上 常常 需要 进行 手工 设置 ， 只 有 发 射 概率 (B) 和 非 零 的 转移 
概率 (A) 才 是 从 观察 序列 O 的 集合 中 训练 出 来 的 。 


隐 马 尔 可 夫 模 型 的 数学 思想 是 在 20 世 纪 60 年 代 由 鲍 姆 (L. E. 
Baum) 和 他 的 同事 们 提出 来 的 后 。 在 20 世 纪 70 年 代 被 卡 内 基 一 梅 隆 大 
(CMU) 的 拜 克 (Baker) 和 IBM 公 司 的 杰 里 奈 克 (Jelinek) 等 应 用 
于 语音 目 动 识别 中 ， 之 后 又 被 BM 公 司 应 用 于 词 形 标注 中 。 在 目 然 语 
言 的 计算 机 处 理 中 ， 隐 马尔 可 夫 模 型 是 一 种 使 用 广泛 的 模型 。 
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第 十 章 ” 语 料 库 语言 和 


在 目 然 语言 处 理 研究 中 ， 越 来 越 倾 癌 于 从 大 规模 真实 的 语料库 中 
获取 语言 知识 ， 语 料 库 成 为 了 上 自然 语言 处 理 研 究 的 知识 源 ， 它 的 重要 
性 得 到 了 目 然 语言 处 理 研 究 者 的 普遍 认可 。 本 章 中 ， 我 们 将 介绍 语 料 
库 语言 学 的 兴起 ， 说 明 建 立 和 使 用 语料库 的 意义 ， 讨 论语 料 库 研究 中 
的 一 些 原则 问题 ， 最 后 介绍 历史 上 的 语料库 以 及 中 国 的 语料库 研究 。 


BT ”语料库 语言 学 的 兴 


英国 哲学 家 罗素 曾经 用 两 个 金字 塔 来 比喻 西方 两 大 传统 哲学 流 浅 
的 研究 方法 ， 他 在 《西方 哲学 史 》 指 出 : “方法 的 不 同 可 以 这 样 来 刻画 
HIE... (要 么 ) 在 针尖 似 的 逻辑 原则 上 按 倒 金 字 塔 式 童 立 起 一 个 
演绎 巨 厦 .…… 假 知 原 则 完全 正确 而 步 步 演绎 也 彻底 牢靠 ， 万 事 大 吉 ; 
但 是 这 个 建筑 不 牢 稳 ， 哪 里 微 有 一 点 裂 鲜 ， 风 会 使 它 雪 倒 瓦 解 。.…… 
(或 者 ) 金字 塔 基底 落 在 观测 事实 的 大 地 上 ， 塔 尖 不 是 朝 下 ， 是 朝 上 
AY; 因此 平衡 是 稳定 的 ， 什 么 地 方 出 个 独 口 可 以 修缮 而 不 至 于 全 组 遭 
丈 。” 帆 这里， 有 罗素 用 倒立 的 金字 塔 来 比喻 理性 主义 的 研究 方法 ， 用 
正 立 的 金字 塔 来 比喻 经 验 主义 的 研究 传统 。 


在 20 世 纪 50 年 代 以 前 ， 现 代 语 言 学 的 传统 ， 无 论 征 规范 语言 学 、 
历史 语言 学 或 是 描写 语言 学 ， 都 注重 语言 事实 ， 提 倡 经 验 主 义 ， 即 “ 根 
据 对 大 量 事实 的 广泛 观察 ， 得 出 一 个 比较 有 限 的 结论 ”四 。 美 国语 言 


学 家 乔 姆 斯 基 (Noam Chomsky) 自 1956 年 开始 发 表 有 关 形 式 语 言 的 一 
系列 论文 ， 在 1969 年 的 《 硅 恩 的 经 验 假设 》  (Quines Empirical 
Assumptions) 一 文中 他 说 : “然而 应 当 认 识 到 ,， “句子 的 概率 :这 个 概 
， 在 任何 已 知 的 对 于 这 个 术语 的 解释 中 ， 都 是 一 个 完全 无 用 的 概 
念 。” 国 可 见 ， 乔 姆 斯 基 早 期 完全 排斥 经 验 主 义 的 统计 方法 。 他 主张 
采用 公理 化 、 形 式 化 的 方法 ， 严 格 地 按照 一 定 的 规则 来 摘 述 自然 语言 
的 特征 ， 试 图 使 用 有 限 的 规则 描述 无 限 的 语言 现象 ， 发 现 人 类 普遍 的 
语言 机 制 ， 建 立 所 谓 的 “ 普 裔 语法 ”(universal grammar) 。 自 此 形成 了 
转换 生成 语法 的 研究 途径 ，60 年 代 末 到 70 年 代 时 期 在 美国 兴盛 一 时 ， 
也 大 力 推 动 了 机 怖 翻译 和 目 然 语 言 理 解 的 研究 和 发 展 。 


è> 


转换 生成 语法 的 研究 途径 在 一 定 程 度 上 克服 了 传统 语言 学 的 某 些 
次 病 ， 推 动 了 语言 学 理论 和 方法 论 的 进步 ， 但 它 认 为 统计 只 能 解释 语 
言 的 表面 现象 ， 不 能 解释 语言 的 内 在 规则 或 生成 机 制 ， 渐 渐 远 离 经 验 
主义 的 途径 。 这 种 转换 生成 语法 的 研究 途径 实际 上 承继 了 “理性 主 


义 ” 的 哲学 思源 。 


经 验 主 义 和 理 性 主义 两 者 之 间 的 争论 主要 体现 在 知识 论 的 问题 
E: 在 英国 以 培根 (Francis Bacon) 、 洛 克 (John Locke) 等 人 为 代表 
的 经 验 主义 传统 (empiricist tradition) 主张 ， 知 识 产生 的 途径 是 根据 
外 界 世 界 的 数据 和 经 验 来 进行 归纳 和 推理 的 过 程 ， 而 在 欧洲 大 陆 以 条 
FJL (René Descartes) 等 人 为 代表 的 理性 主义 传统 (rationalist 
tradition) 则 提倡 学 习 和 推理 的 途径 是 由 先 验 的 知识 和 与 生 俱 来 的 思想 
所 指导 的 。 


然而 ， 人 们 逐渐 发 现 ， 这 种 理性 主义 的 研究 所 得 出 的 语言 规则 似 
平 只 能 适用 于 一 种 子 语言 (sub-language) ， 而 不 能 推广 到 该 子 语言 


外 的 于 其 他 语言 现象 ， 具 有 很 大 的 局 限 性 。 面 对 这 样 的 “局 限 性 ”"， 人 人 
们 开始 思考 ， 乔 姆 斯 基 的 “ 普 遇 语法 ”是否 是 真正 的 语言 规则 ， 征 否 能 
够 经 受 大 量 的 语言 事实 的 检验 ， 语 言 规 则 是 否 应 该 和 语言 事实 结合 


来 考虑 ， 而 不 是 一 头 钻 入 理性 主义 的 隧道 ? 


(E 


作为 一 位 求实 求 真 、 虚 怀 奉 谷 的 语言 学 大 师 ， 乔 姆 斯 基 开 始 反 
思 ， 表 现 了 与 时 俱 进 的 勇气 。 在 最 近 提 出 的 “最 位 方 案 * 中 ， 他 认为 ， 
所 有 重要 的 语法 原则 直接 运用 于 表层 ， 不 同 语言 之 间 的 靶 异 通过 词汇 
来 处 理 ， 把 具体 的 规则 减少 到 最 低 限 度 ， 开 始 注重 对 具体 的 词汇 的 人 研 
穹 。 可 以 看 出 ， 转 换 生成 语法 也 开始 对 词汇 重视 起 来 ， 逐 讲 地 改变 了 
原来 的 理性 主义 的 立场 ， 开 始 与 经 验 主义 受 协 ， 或 者 悄悄 地 向 经 验 主 
XH ° 


由 于 语言 学 中 经 验 主义 方法 的 东山 再 起 ， 注 重 语言 事实 的 传统 
新 抬头 ， 大 多 数学 者 们 普 裔 认为 : 语言 学 的 研究 必须 以 语言 事实 作为 
根据 ， 必 须 详尽 地 、 大 量 地 占有 材料 ， 才 有 可 能 在 理论 上 得 出 比较 可 
靠 的 结论 。 传 统 的 语言 材料 的 搜集 、 整 理 和 加 工 完 全 是 靠 手 工 进行 
的 ， 这 是 一 种 村 燥 无 味 、 费 力 费 时 的 工作 。 尺 管 一 些 对 于 语言 研究 有 
浓厚 兴趣 和 献 喘 精神 的 语言 学 家 对 于 这 样 的 工作 乐此不疲 ,但 是 一 般 
的 人 对 此 却 鹿 而 生 蝴 。 计 算 机 出 现 之 后 ， 随 着 计算 机 功能 的 逐渐 完 赭 
和 强大 ， 原 先 完全 人 靠 手 工 的 工作 开始 交 给 计算 机 去 做 ， 大 大 地 减轻 了 
人 们 的 劳动 。 后 来 ， 在 这 种 工作 中 逐渐 创造 了 一 些 独特 的 方法 ， 拓 出 
了 一 些 初步 的 理论 ， 形 成 了 一 门 新 的 学 科 一 一 语料库 语言 学 (corpus 
linguistics) ， 由 于 语料库 是 建立 在 计算 机 上 的 ， 因 此 ， 语 料 库 语 言 学 
征 语言 学 和 计算 机 科学 交叉 形成 的 一 门 边 缘 学 科 。 


在 目前 的 研究 水 平 下 ， 语 料 库 语言 学 主要 是 利用 语料库 对 于 语言 
的 某 个 方面 进行 研究 ， 仅 仅 是 一 种 新 的 研究 手段 严格 地 说 ， 语 料 库 


语言 学 还 没有 十 分 完备 的 理论 ， 它 还 不 能 跟 语言 学 中 的 其 他 成 熟 的 学 
科 (如 计算 语言 学 、 社 会 语言 学 、 心 理 语 言 学 ) 相提并论 。 尽 管 这 
样 ， 这 个 新 兴 的 研究 领域 一 出 现 ， 束 引起 了 语言 学 界 的 普遍 关注 ， 越 
来 越 多 的 语言 学 家 愿意 采用 语料库 作为 他 们 的 工具 来 研究 语言 ， 并 取 
得 了 令 人 可 襄 的 成 绩 。 


目前 ， 语 料 库 语言 学 主要 研究 机 器 可 读 自然 语言 文本 的 采集 、 存 
储 、 检 索 、 统 计 、 语 法 标注 、 句 法 语义 分 析 ， 以 及 具有 上 壕 功能 的 语 
料 库 在 语言 教学 、 语 言 定量 分 析 、 词 汇 研究 、 词 语 搭配 研究 、 词 典 纺 
壬 、 语 法 研究 、 语 言 文 化 研究 、 法 律 语言 研究 、 作 品 风 格 分 析 、 自 然 
语言 理解 和 机 器 翻译 等 领域 中 的 应 用 。 我 们 认为 ， 语 料 库 语言 学 是 自 
然 语 言 计算 机 处 理 的 一 个 重要 内 容 。 


第 二 节 建立 和 使 用 语料库 的 意义 


语料库 语言 学 是 以 语料库 作为 研究 对 象 的 。 这 样 的 语料库 必须 以 
电子 计算 机 为 载体 来 存放 语言 材料 ， 这 些 存放 在 电子 计算 机 中 的 语言 
材料 是 在 语言 的 实际 使 用 中 真实 出 现 过 的 ， 因 此 ， 它 们 可 以 如 实地 反 
映 语 言 现象 ， 克 服 语言 学 家 观察 语言 现象 时 的 主观 性 和 片面 性 ， 这 样 
的 未 经 加 工 的 语 料 对 于 语言 学 研究 已 经 很 有 用 ;而 这 些 真实 的 语言 材 
料 需要 经 过 标注 、 分 析 、 加 工 处 理 之 后 ， 就 可 以 变 成 更 加 有 用 的 语言 
资源 。 所以， 不论 是 未 经 加 工 的 “ 生 语 料 * 或 者 经 过 加 工 的 “ 熟 语 料 * 都 
是 非常 宝贵 的 。 


多 年 来 ， 机 器 翻 译 和 目 然 语言 理解 的 研究 中 ， 分 析 语 言 的 主要 方 
法 是 句法 语义 分 析 。 因 此 ， 在 很 长 一 段 时 间 内 ， 许 多 系统 都 是 基于 规 
则 的 ， 而 根据 当前 计算 机 的 理论 和 技术 水 平 ， 很 难 把 语言 学 的 各 种 事 


实 和 理解 语言 所 需 的 广泛 的 背景 知识 用 规则 的 形式 充分 地 表达 出 来 ， 
这 样 ， 这 些 基 于 规则 的 机 器 翻译 和 自然 语言 理解 系统 只 能 在 极其 受 限 
的 某 些 子 语言 (sub-language) 中 获得 一 定 的 成 功 。 为 了 摆脱 困境 ， 目 
然 语言 处 理 的 研究 者 们 开始 对 大 规模 的 非 受 限 的 目 然 语 言 进行 调查 和 
统计 ， 以 便 采 用 一 种 基于 统计 的 模型 来 处 理 大 量 的 非 受 限 语言 。 不 言 
而 喻 ， 语 料 库 语言 学 将 有 可 能 在 大 量 语言 材料 的 基础 上 来 检验 传统 的 
理论 语言 学 基于 手工 搜集 材料 的 方法 所 得 出 的 各 种 结论 ， 从 而 使 我 们 
对 于 目 然 语言 的 各 种 复杂 现象 获得 更 为 深刻 和 更 为 全 面 的 认识 。 


传统 语言 学 家 获取 语言 知识 的 方法 基本 上 是 通过 “内 省 ”进行 ， 由 
于 目 然 语言 现象 充满 了 例外 ， 治 学 严 谍 的 学 者 们 提出 了 “ 例 不 十 ， 不 立 
ik" (RIRE) 、“ 例 外 不 十 ， 法 不 破 ”( 王 力 ) AWR o RIEZ 
书 的 前 言 中 曾经 指出 ， 这 样 的 原则 够 似 广 格 ， 实 际 上 却 是 片面 的 。 在 
成 于 上 万 的 语言 数据 中 ， 只 是 靠 十 个 例子 或 十 个 例外 束 来 决定 规则 的 
取舍 ， 难 道真 的 能 够 保证 万 无 一 失 吗 ? 


语料库 征 客 观 的 、 可 人 靠 的 语言 货源 ， 语 言 学 研究 应 当 依靠 这 样 的 
至 贯 货 源 。 语 料 库 中 包含 着 极为 至 贯 的 语言 知识 ， 我 们 应 当 使 用 新 的 
方法 和 工具 来 获取 这 些 知识 。 当 然 ， 前 幸 语 言 学 家 数 生 年 积 素 的 语言 
知识 (包括 词典 中 的 语言 知识 ， 语 法 书 中 的 语言 知识 ) 也 是 宝贵 的 ， 
但 由 于 这 些 知识 是 通过 这 些 语言 学 家 们 的 “内 省 ”或 者 “洞察 力 ” 发 现 
的 ， 难 免 珊 有 主观 性 和 片面 性 ， 需 要 我 们 使 用 语料库 来 一 一 地 加 以 审 
A 


日 o 


503 (John Sinclair) 一 针 见 血 地 指出 : «EXER IT 8 EEA 
管 是 多 么 地 可 行 ， 都 不 能 作为 使 用 语言 的 实例 " 回 。 


如 果 搞 语言 研究 不 使 用 语料库 或 概率 ， 很 可 能 就 只 能 使 用 自己 根 
据 * 内 省 ” (introspection) 得 到 的 数据 ， 这 是 “第 一 人 称 数据 ” (first 
person data) ， 在 使 用 第 一 人 称 数据 时 ， 语 言 研究 者 既是 语言 的 数据 
的 分 析 者 ， 又 是 语言 数据 的 提供 者 ; 或 者 使 用 根据 “问卷 调查 ”之 类 
的 “诱导 ” (elicitation) 得 到 的 数据 ， 这 是 “第 二 人 称 数据 ”(second 
person data) ， 在 使 用 第 二 人 称 数 据 时 ， 语 言 研究 者 不 充当 数据 的 提 
供 者 ， 数 据 需 要 通过 “作为 第 二 人 称 的 旁人 ”的 诱导 才能 得 到 ;如 果 使 
用 语料库 的 数据 作为 语言 研究 的 数据 来 源 ， 那 么 ， 语 言 研究 者 就 不 再 
充当 数据 的 提供 者 或 诱导 者 ， 而 是 充当 数据 的 分 析 者 了 ， 这 种 “ 观 
察 ” (observation) 得 到 的 数据 是 “第 三 人 称 数 据 * (third person 
data) 。 


这 是 多 年 前 魏 赛 了 进 在 《语言 学 应 用 中 的 局 限 性 》 (The Limitation 
of Linguistics Applied) 器 一 文中 提出 的 看 法 ， 我 觉得 这 种 看 法 有 价 
值 ， 值 得 我 们 中 国人 思考 。 


当然 ， 如 果 使 用 第 三 人 称 的 观 绎 数据 ， 语 言 学 研究 者 同时 也 可 以 
充当 数据 的 “内 省 者 ”或 “诱导 者 *”， 所 以 ， 第 一 人 称 和 第 二 人 称 与 第 三 
人 称 是 难以 分 开 的 。 这 也 束 是 我 不 反对 “ 担 脑袋 ”这 种 第 一 人 称 方法 的 
原因 。 第 三 人 称 方法 显然 是 比较 科学 的 获取 数据 的 手段 。 


乔 姆 斯 基 (Chomsky) 等 理论 语言 学 家 采用 的 是 第 一 人 称 方法 ， 
由 于 他 们 具有 非凡 的 养 茵 ， 也 可 以 取得 摆 越 的 成 就 ， 心 理 语言 学 、 实 
验 语 音 学 采用 的 是 第 二 人 称 方法 ， 也 取得 了 不 少 的 成 果 ; 而 我 们 现在 
则 提倡 第 三 人 称 方法 ， 当 然 ， 与 此 同时 ， 我 们 仍然 要 充分 地 查 重 第 一 
人 称 研 究 者 和 第 二 人 称 人 研究 者 的 智慧 和 洞察 力 ， 我 们 并 不 反对 第 一 人 
称 的 内 省 法 和 第 二 人 称 的 诱导 法 。“ 扫 脑袋 ”的 方法 固然 会 产生 主观 


性 ， 但 是 ， 脑 袋 担 得 好 也 并 不 容易 ， 前 牵 语 言 学 家 的 智慧 和 洞察 力 仍 
然 是 值得 称道 的 。 


不 过 ， 我 们 认为 ， 语 言 学 的 一 切 知 识 ， 不 论 是 过 去 通过 “内 
Æ” (introspection) 或 “诱导 ” (elicitation) 得 到 的 知识 ， 最 终 都 有 必 
要 放 到 语料库 中 来 “观察 ”(observation) 和 “检验 ” (verification) ， 决 
定 其 是 正确 的 ， 还 是 片面 的 ， 还 是 错误 的 ， 甚 至 是 役 雇 的 ， 从 而 决定 
其 存在 的 必要 性 ， 决 定 其 是 继续 存在 ， 还 是 放弃 其 存在 。 


在 计算 机 上 建立 了 语料库 之 后 ， 我 们 就 可 以 使 用 机 器 学 习 的 方 
法 ， 目 动 地 从 浩如烟海 的 语料库 中 获取 准确 的 语言 知识 。 这 是 语言 学 
获取 语言 知识 方式 的 巨大 变化 ， 作 为 二 十 一 世纪 的 语言 学 工作 者 ， 痢 
应 该 注意 到 这 样 的 变化 ， 逐 渐 改 变 获取 语言 知识 的 手段 司 。 


语言 知识 和 语 篇 知识 都 包含 在 语料库 当中 。 随 着 语料库 加 工 的 逐 
渐 精 细 和 深入 ， 我 们 获得 的 语言 知识 也 整 越 加 准确 和 深刻 。 


语料库 同时 也 二 语言 识 的 至 库 ， 十 最 重要 的 语言 货源 。 语 料 库 中 
组 藏 着 丰富 的 语言 知识 ， 词 汇 知 识 、 句 法 知识 、 语 义学 家 有 力 的 研究 
工具 。 语 料 库 的 使 用 ， 为 语言 学 的 研究 提供 了 一 种 新 的 思维 角度 ， 辅 
助人 们 的 语言 “直觉 *、“ 内 省 ”和 “诱导 ”， 从 而 克服 研究 者 本 人 的 主观 
性 和 厂 面 性 ， 逐 渐 成 为 语言 学 研究 的 主流 方法 。 语 言 学 家 利用 语料库 
来 全 宛 语言 学 ， 正 如 天 文学 家 利用 望远镜 来 研究 天 文学 ， 生 物 学 家 利 
用 显微镜 来 研究 生物 学 一 样 ， 能 够 使 他 们 如 虎 添 避 ， 其 意义 古 非 常 重 
大 的 。 望 远 镜 的 发 明 使 天 文学 家 能 够 观察 到 他 们 过 去 难以 观察 到 的 安 
观 世 界 的 现象 ， 显 微 镜 的 发 明 使 生物 学 家 能 够 观察 到 他 们 过 去 难以 观 
察 到 的 微观 世界 的 现象 ， 计 算 机 可 读 的 语料库 吏 好 比 语言 学 研究 的 望 
远 镜 和 显微镜 ， 语 料 库 的 使 用 扩展 了 语言 学 家 的 眼界 ， 使 他 们 看 得 更 


远 ， 看 得 更 细 ， 从 而 使 他 们 能 够 发 现 更 多 的 语言 现象 ， 挖 掘 出 更 多 的 
语言 事实 ， 把 语言 学 的 研究 推 癌 一 个 新 的 阶段 。 从 某 种 意义 上 说 ， 语 
料 库 的 使 用 ， 有 是 语言 学 研究 的 一 次 车 命 性 的 进步 。 


例如 ， 有 一 种 被 称 为 KWIC- 索 引 〈 上 下 文 关键 词 索 引 ) 的 语料库 
软件 ， 可 以 帮助 研究 者 一 目 了 然 地 观察 到 词语 的 搭配 情况 。 图 10.1 中 
列 出 了 Lewis Carroll 的 《爱丽 丝 仙境 历险 记 》 中 curious 的 词语 搭配 。 


10-1.jpg(c| 图 10.1 上 下 文 关键 词 索引 )* 


需要 指出 的 是 ， 语 料 库 并 不 是 全 部 的 研究 方法 和 手段 。 它 的 局 限 
性 在 于 只 能 提供 语言 事实 的 例证 ， 不 能 对 语言 事实 进行 自动 的 解释 ， 
也 不 能 进行 自动 推理 ， 更 不 能 为 文本 数据 直接 地 提供 文化 和 社会 背景 
等 方面 的 信息 。 语 料 库 在 辅助 人 们 对 于 语言 进行 客观 研究 的 同时 ， 仍 
然 离 不 开 人 研究 者 本 人 的 语言 < 直觉 > 和 “内 省 ”， 因 为 ， 科 学 研究 中 的 客 
观 知识 离 不 开 主 观 知 识 ， 就 像 主观 知识 离 不 开 客观 知识 一 样 。 


BZT ”语料库 研究 中 的 一 些 原 则 
问题 


语料库 是 为 一 个 或 多 个 应 用 目标 而 专门 收集 的 、 有 一 定 结构 的 、 
有 代表 性 的 、 可 被 计算 机 程序 检索 的 、 具 有 一 定 规模 的 语 料 的 集合 。 


语料库 应 该 按照 一 定 的 语言 学 原则 ， 运 用 随机 抽样 方法 ， 通 过 收 
集 目 然 出 现 的 连续 的 语言 运用 文本 或 话语 片段 来 建立 。 从 其 本 质 上 
讲 ， 语 料 库 实际 上 有 十 通过 对 目 然 语言 运用 的 随机 抽样 ， 以 一 定 大 小 的 
语言 样本 来 代表 茶 一 人 研究 中 所 确定 的 语言 运用 总 体 。 


语料库 一 般 可 分 为 如 下 类 型 ; 


e 按 语 料 选 取 的 时 间 划 分 ， 可 分 为 历时 语料库 (diachronic 
corpus) 和 共 时 语料库 (synchronic corpus) 


e 按 语 料 的 加 工 深度 划分 ， 可 分 为 标注 语料库 (annotated 
corpus) 和 非 标注 语料库 (non-annotated corpus) 


e 按 语 料 库 的 结构 划分 ， 可 分 为 平衡 结构 语料库 (balance 
structure corpus) 和 上 自然 随机 结构 的 语料库 ( random structure 


corpus) 


e 按 语料库 的 用 途 划分 ， 可 分 为 通用 语料库 (general corpus) 和 
专用 语料库 (specialized corpus) 。 专 用 语料库 又 可 以 进一步 根据 使 用 
的 目的 来 划分 ， 例 如 ， 又 可 以 进一步 分 为 语言 学 习 者 语料库 (earner 


m 


corpus) 、 语 言 教学 语料库 (pedagogical corpus) 


e 按 语 料 库 的 表达 形式 划分 ， 可 分 为 口语 语料库 (spoken 
corpus) 和 文本 语料库 (text corpus) 


e 按 语 料 库 中 语 料 的 语种 划分 ， 可 分 为 单 语 种 语料库 
(monolingual corpora) 和 多 语种 语料库 (multilingual corpora) 。 多 
语种 语料库 又 可 以 再 分 为 可 比 语料库 (comparable corpora) 和 平行 语 
料 库 (parallel corpora) 。 可 比 语料库 的 目的 侧重 于 不 同 语言 之 间 的 特 
定语 言 现 象 的 对 比 ， 基 本 上 不 使 用 翻译 的 语 料 ， 而 平行 语料库 的 目的 
侧重 于 获取 对 应 的 翻译 实例 ， 必 须 使 用 平行 的 翻译 语 料 凶 。 


e 按 语料库 的 动态 更 新 程度 划分 ， 可 分 为 参考 语料库 (reference 
corpus) 和 监控 语料库 (monitor corpus) 。 参 考 语料库 原则 上 不 作 动 


态 更 新 ， 而 监控 语料库 则 需要 不 断 地 进行 动态 更 新 。 


从 20 世 纪 90 年 代 初 、 中 期 开始 ， 语 料 库 了 逐渐 由 单 语种 向 多 语种 发 
展 ， 多 语种 语料库 开始 出 现 。 目 前 多 语种 语料库 的 研究 正 朝 着 不 断 扩 " 
大 库容 量 、 深 化 加 工 和 不 断 拓 展 新 领域 等 方向 继续 发 展 。 随 着 从 事 语 
言 研究 和 机 器 翻译 研究 的 学 者 逐渐 认识 到 多 语种 语料库 重要 性 ， 国 内 
外 很 多 研究 机 构 都 致力 于 多 语种 语料库 的 建设 ， 并 利用 多 语种 语料库 
对 各 种 各 样 的 语言 现象 进行 了 深入 的 探索 。 


在 建设 或 研究 语料库 的 时 候 ， 我 们 应 当 注 意 语料库 的 代表 性 、 结 
构 性 和 平衡 性 ， 还 要 注意 语料库 的 规模 ， 并 制定 语 料 的 元 数据 规范 。 


下 面 分 别 讨论 这 些 问 题 。 这 只 是 本 书 作者 个 人 的 意见 ， 不 是 规范 
标准 ， 只 具有 推荐 性 ， 不 具有 强制 性 ， 仅 供 读者 参考 。 


首先 讨论 语料库 的 代表 性 。 


语料库 对 于 其 应 用 领域 来 说 ， 要 具有 足够 的 代表 性 ， 这 样 ， 才 能 
保证 基于 语料库 得 出 的 知识 具有 较 强 的 普遍 性 和 较 高 的 完备 性 。 


真实 的 语言 应 用 材料 是 无 限 的 ， 因 此 语料库 样本 的 有 限 性 是 无 法 
回避 的 。 承 认 语料库 样本 的 有 限 性 ， 在 语 料 的 选材 上 ， 束 要 尽量 追求 
语 料 的 代表 性 ， 要 使 有 限 的 样本 语 料 尽 可 能 多 地 反映 无 限 的 真实 语言 
现象 的 特征 。 语 料 库 的 代表 性 不 仅 要 求 语料库 中 的 样本 取 目 于 符合 语 
言 文字 规范 的 真实 的 语言 材料 ， 而 且 要 求 语 料 库 中 的 样本 要 来 源 于 正 
在 “使 用 中 ”的 语言 材料 ， 包 括 各 种 环境 下 的 、 规 范 的 或 非 规 范 的 语言 
应 用 。 语 料 库 的 代表 性 还 要 求 语 料 具有 时 代 性 ， 能 反映 语言 的 发 展 变 
化 和 当代 的 语言 生活 规律 。 只 有 通过 具有 代表 性 的 语料库 ， 才 能 让 计 
算 机 了 解 真实 的 语言 应 用 规律 ， 才 有 可 能 让 计算 机 不 仅 能 够 理解 和 处 


理 规范 的 语言 ， 而 且 还 能 够 处 理 不 规范 的 但 被 广泛 接受 的 语言 、 甚 至 
包含 有 若干 错误 的 语言 。 


语料库 是 由 目 然 发 生 的 语言 数据 组 成 的 。 但 是 ， 是 不 古 任意 一 个 
语言 数据 集合 ， 从 由 三 个 句子 组 成 的 数据 集合 到 由 三 百 万 个 句子 组 成 
的 数据 集合 ， 都 可 以 称 为 一 个 语料库 呢 ? 显然 不 是 这 样 的 。 语 料 库 这 
一 术语 ， 只 有 用 于 一 个 组 织 结构 严密 的 数据 集合 时 ， 才 是 合适 的 。 这 
一 数据 集合 中 的 数据 是 在 一 定 的 抽样 框 染 范围 内 采集 而 来 的 。 抽 样 框 
架 的 设计 要 保证 所 采集 的 数据 能 够 挖 据 出 一 定 的 语言 特征 。 抽 样 框架 
在 语料库 的 设计 中 至 关 重 要 。 


要 想 把 以 一 种 自然 语言 中 的 所 有 话语 都 收集 到 一 个 语料库 中 是 不 
可 能 的 ， 除 非 猎 究 的 对 象征 锌 高 度 限制 的 次 语言 ， 或 者 已 经 不 使 用 了 
的 语言 。 因 此 ， 语 料 库 要 在 特定 的 抽样 框架 内 做 到 代表 性 ， 从 而 涵 雷 
要 研究 或 者 模拟 的 语言 的 多 种 形式 。 


例如 ， 假 设 为 我 们 要 研发 一 个 对 话 管理 器 ， 用 于 电话 预订 票 销售 
系统 ， 并 且 我 们 决定 建立 一 个 语料库 来 帮助 为 我 们 完成 这 项 任务 。 目 
的 明确 之 后 ， 语 料 库 的 抽样 框架 也 就 很 清楚 了。 这 时 ， 我 们 需要 从 电 
话 售 票 对 话 中 抽取 相关 样本 ， 用 于 要 完成 的 语料库 。 如 果 从 文学 作品 
中 抽样 ， 或 者 从 面对面 的 对 话 中 抽样 ， 都 是 不 合适 的 。 


在 电话 售票 领域 中 ， 有 各 种 不 同类 型 的 票 ， 每 一 种 都 要 求 问 不 同 
的 问题 。 因 此 ， 电 话 售票 语言 会 表现 出 明显 不 同 的 语言 类 型 。 因 此 ， 
语料库 中 就 要 包括 各 种 类 型 的 电话 售票 对 话 ， 并 且 将 它们 分 成 相关 的 
小 类 (例如 ， 电 话 售 火车 票 ， 电 话 售 飞机 票 ， 电 话 售 电 影 票 ， 等 
等 ) ， 从 而 达到 语料库 的 平衡 。 


最 后 ， 在 每 一 个 这 样 的 类 别 中 ， 只 对 一 个 对 话 录 首 ， 或 者 只 采 一 
个 接线 员 的 对 话 ， 都 是 没有 意义 的 。 如 宁 只 对 一 个 对 话 孙 音 ， 得 到 的 
只 是 一 个 特殊 的 个 例 。 如 果 只 录 一 个 接线 员 的 对 话 ， 不 能 保证 这 样 的 
对 话 能 代表 所 有 接线 员 的 对 话 。 因 此 ， 语 料 库 要 包括 许多 说 话 人 ， 才 
能 做 到 有 代表 性 。 


再 来 讨论 语料库 的 结构 性 。 


语料库 是 有 目的 地 收集 的 语 料 的 集合 ， 不 古 任意 语言 材料 的 堆 
积 ， 因 此 要 求 语料库 具有 一 定 的 结构 。 在 目前 计算 机 已 经 普及 的 技术 
条 件 下 ， 语 料 库 必须 是 以 电子 文本 形式 存在 的 、 计 算 机 可 读 的 语 料 集 
合 。 语 料 库 的 逻辑 结构 设计 要 确定 语料库 子 库 的 组 成 情况 ， 定 义 语 料 
库 中 语 料 记录 的 代码 、 元 数据 项 、 每 个 数据 项 的 数据 类 型 、 数 据 宽 
度 、 取 值 范围 、 完 整 性 约束 等 。 


我 们 还 有 必要 来 讨论 语料库 的 平衡 性 。 


平衡 因子 是 影响 语料库 代表 性 的 关键 特征 。 在 平衡 语料库 中 ， 语 
料 库 为 了 达到 平衡 ， 首 移 要 确定 语 料 的 平衡 因子 。 影 啊 语 言 应 用 的 因 
素 很 多 ， 如 : 学科、 年代、 文体、 地 域 、 登 载 语 料 的 媒体 、 使 用 者 的 
年 龄 、 性 别 、 文 化 背景 、 阅 历 、 语 料 的 用 途 CAES ORE D un) 
等 。 不 能 把 所 有 的 特征 都 作为 平衡 因子 ， 只 能 根据 实际 需要 来 选取 其 
中 的 一 个 或 者 几 个 重要 的 指标 作为 平衡 因子 。 最 第 用 的 平衡 因子 有 学 
科 、 年 代 、 文 体 、 地 域 等 。 应 该 根据 平衡 语料库 的 用 偿 来 评测 语料库 
所 选择 的 平衡 因子 的 恰当 性 。 


在 建设 语料库 时 ， 还 应 当 考 虑 语料库 的 规模 。 


大 规模 的 语料库 对 于 语言 研究 ， 特 别 是 对 于 目 然 语言 处 理 的 研究 
具有 不 可 若 代 的 作用 。 但 随 着 语料库 的 增 大 ， 坪 圾 语 料 沉 来 的 统计 垃 
圾 问题 也 越 来 越 广 重 。 而 且 ， 当 语料库 达到 一 定 的 规模 后 ， 语 料 库 的 
功能 并 不 会 随 着 其 规模 同步 地 增长 。 我 们 应 根据 实际 的 需要 来 决定 语 
料 库 的 规模 ， 语 料 库 规模 的 大 小 应 当 以 是 否 能 够 满足 其 需要 来 决定 。 


我 们 还 应 当 考虑 语料库 的 元 数据 (meta data) 问题 。 


语料库 的 元 数据 对 语料库 人 研究 具有 重要 的 意义 。 我 们 可 通过 元 数 
据 了 解 语 料 的 时 间 人 信息、 地域 信息 、 作 者 信息 、 文 体 信息 等 各 种 相关 
信息 ;也 可 通过 元 数据 形成 不 同 的 子 语料库 ， 满 足 不 同 兴趣 研究 者 的 
研究 需要 ; 还 可 通过 元 数据 对 不 同 的 子 语料库 进行 比较 ， 研 究 和 发 现 
一 些 对 语言 应 用 和 语言 发 展 可 能 有 影响 的 因素 ;元 数据 还 可 记录 语 料 
的 知识 版 权 信 息 、 语 料 库 的 加 工 信 息 和 管理 信息 。 


由 于 在 汉语 书面 文本 中 词 与 词 之 间 没 有 空 日 ， 不 便于 计算 机 处 
理 ， 因 此 ， 汉 语 书面 文本 的 语料库 一 般 都 要 进行 切 词 和 词性 标注 。 汉 
语 书面 文本 经 过 切 词 和 词性 标注 之 后 ， 带 有 更 多 的 信息 ， 更 加 便于 使 
用 。 


不 过 ， 关 于 语料库 的 标注 (annotation) 问题 ， 学 术 界 还 存在 不 同 
的 看 法 。 有 的 学 者 主张 对 语 料 进 行 标注 ， 他 们 认为 ， 标 注 过 的 语料库 
具有 开发 和 研究 上 的 方便 性 、 使 用 上 的 可 重用 性 、 功 能 上 的 多 样 性 、 
分 析 上 的 清晰 性 等 优点 。 有 的 学 者 则 对 语料库 标注 提出 批评 。 学 术 界 
对 于 语料库 标注 的 批评 主要 来 自 两 方面 : 一 方面 认为 ， 语 料 库 经 过 标 
注 之 后 失去 了 客观 性 ， 所 得 到 的 标注 语料库 是 不 纯粹 的 ， 融 有 标注 者 
对 于 语言 的 主观 认识 ; 另 一 方面 认为 ， 手 工 标注 的 语料库 准确 性 高 但 
一 致 性 差 ， 目 动 或 半 目 动 的 标注 一 致 性 高 但 准确 性 差 ， 语 料 库 的 标注 


难以 做 到 了 两全其美 ， 而 目前 大 多 数 的 语料库 标注 都 需要 人 工 参与 ， 因 
而 很 难保 证 语料库 标注 的 一 致 性 负 。 我 们 认为 ， 不 论 标注 过 的 语料库 
还 是 没有 标注 过 的 语料库 都 是 有 用 的 ， 其 中 都 隐藏 着 丰富 的 语言 学 信 
思 等 行 着 我 们 去 挖掘 ， 我 们 甚至 可 以 使 用 机 融 学 习 的 技术 ， 从 语料库 
中 目 动 地 获取 语言 知识 ， 不 论 标注 过 的 语料库 还 是 没有 标注 过 的 语 料 
库 都 有 助 于 语言 学 的 发 展 。 


近年 来 ， 在 语料库 的 建立 和 开发 中 逐渐 创造 了 一 些 独特 的 方法 ， 
提出 了 一 些 初 步 的 原则 ， 并 且 对 这 些 方法 和 原则 在 理论 上 进行 了 探讨 
和 和 总结 。 由 于 语料库 是 建立 在 计算 机 上 的 ， 因 此 ， 语 料 库 语言 学 是 语 
言 学 和 计算 机 科学 交叉 形成 的 一 门 边缘 学 科 。 目 前 语料库 语言 学 主要 
苹 利用 语料库 对 语言 的 某 个 方面 进行 钱 究 ， 是 一 种 新 的 研究 手段 ， 同 
时 也 逐步 建立 了 目 己 学 科 的 理论 体系 ， 正 处 于 迅速 的 发 展 过 程 之 中 。 


语料库 语言 学 是 一 种 新 的 获取 语言 知识 的 方法 。 语 料 库 语言 学 提 
倡 建 立 语料库 ， 在 计算 机 的 辅助 下 ， 使 用 统计 的 方法 或 机 融 学 习 的 方 
法 ， 目 动 或 半 目 动 地 从 浩如烟海 的 语料库 中 获取 准确 的 语言 知识 。 随 
着 互联 网 日 靳 月 异 的 发 展 ， 互 联网 上 有 着 无 比 丰 富 的 文本 语言 数据 ， 
其 中 有 经 过 标注 的 结构 化 的 语言 数据 ， 也 有 未 经 过 标注 的 非 结构 化 的 
语言 数据 ， 我 们 可 以 从 互联 网 上 这 些 大 量 的 语言 数据 中 目 动 或 半 目 动 
地 获取 语言 知识 。 这 是 语言 学 获取 语言 知识 方式 的 巨大 变化 ， 在 语言 
学 的 发 展 历史 上 具有 后 命 性 的 意义 。 我 们 应 该 敏锐 地 注意 到 这 样 的 变 
化 ， 努 力学 习 语 料 库 语言 学 的 理论 和 方法 ， 逐 渐 改 变 获 取 语 言 知 识 的 
TEC 
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和 片面 性 。 我 们 预计 ， 语 料 库 方法 将 会 逐渐 成 为 语言 学 研究 的 主流 方 
法 ， 受 到 语言 研究 者 的 普 裔 欢迎 。 


语料库 语言 学 还 为 语言 妍 究 的 现代 化 提供 了 强 有 力 的 手段 。 语 料 
库 把 语言 学 家 从 艰 匠 党 重 的 手工 劳动 中 解放 出 来 ， 使 语言 学 家 可 以 集 
中 精力 来 研究 和 思考 其 他 重要 问题 ， 这 对 于 促进 语言 学 研究 的 现代 化 
具有 不 可 估量 的 作用 。 


目前 ， 语 料 库 语言 学 主要 研究 机 器 可 读 目 然 语 言 文 本 的 采集 、 存 
储 、 检 索 、 统 计 、 目 动 切 分 、 词 性 标注 、 语 义 标 注 ， 并 人 研究 具有 上 壕 
功能 的 语料库 在 词典 编 寨 、 语 言 教学 、 语 言 定量 分 机 、 词 汇 研 究 、 词 
语 搭配 人 研究、 语法 人 研究、 多 语言 跨 文 化 研究 、 法 律 语言 研究 、 作 品 风 
格 分 析 等 领域 中 的 应 用 ， 已 经 初步 展现 出 这 门 新 兴学 科 强 大 的 生命 
力 ， 并 且 也 影响 和 推动 了 目 然 语言 处 理 的 发 展 。 


"BUTS ”历史 上 的 语料库 


早 在 1897 年 ， 德 国语 言 学 家 凯 定 (J. Kaeding) 就 使 用 大 规模 的 语 
言 材料 来 统计 德语 单词 在 文本 中 的 出 现 频率 ， 编 写 了 《德语 频率 词 
Hi) (J. Kaeding, Hàufigkeitswórterbuch der deutschen Sprache, Steglitz: 
published by the author, 1897) 。 由 于 当时 还 没有 计算 机 ， 凯 定 使 用 的 
语言 材料 不 是 机 器 可 读 的 (machine readable) ， 所 以 他 的 这 些 语言 材 
料 还 不 能 算 真正 意义 上 的 语料库 ， 但 是 ， 凯 定 使 用 大 规模 语言 资料 来 
编写 频率 University 词 典 的 工作 ， 是 具有 开创 性 的 。 


1959 年 ， 英 国 伦敦 大 学 教授 硅 克 (Randolph Quirk) 提出 建立 英语 
用 法 调查 语料库 ， 叫 做 SEU (Survey of English Usage) ， 后 来 他 根据 


这 个 语料库 领导 编写 了 著名 的 《当代 美语 语法 》。 


不 久 ， 弗 兰 西 斯 (Nelson Francis) 和 库 塞 拉 (Henry Kucera) 在 
美国 布朗 大 学 (Brown University) 召集 了 一 些 语料库 的 有 识 之 士 ， 建 
立 了 布朗 语料库 (BROWN corpus) ， 这 是 世界 上 第 一 个 根据 系统 性 
原则 采集 样本 的 标准 语料库 ， 规 模 为 100 万 词 次 ， 是 一 个 代表 当代 美国 
英语 的 语料库 o 


由 英国 兰 卡 斯 特大 学 的 里 奇 倡议 ， 由 挪威 奥斯陆 大 学 (Oslo 
University) 的 约翰 森 (Stig Johansson) 主持 完成 ， 最 后 在 挪威 插 尔 根 
大 学 (Bergen University) 的 挪威 人 文科 学 计算 中 心 联 合 建立 了 LOB 语 
料 库 《LOB 是 Lancaster，Oslo 和 Bergen 的 首 字 母 简称 ) ， 规 模 与 布朗 
语料库 相当 ， 这 有 是 一 个 代表 当代 现 国 英语 的 语料库 。 


欧美 各 国学 者 利用 这 两 个 语料库 开展 了 大 规模 的 研究 ， 其 中 最 引 

人 注目 的 是 对 语料库 进行 语法 标注 的 研究 。20 世 纪 70 年 代 。 格 林 讷 

(Greene) MEZ (Rubin) 设计 了 一 个 基于 规则 的 自动 标注 系统 

TAGGIT 来 给 布 朋 语 料 库 的 100 万 词 的 语 料 做 目 动 词性 标注 ， 正 确 率 为 
77% ° 


里 奇 领 导 的 UCREL (University Centre for Computer Corpus 
Research on Language) 研究 小 组 ， 根 据 成 分 似 然 性 理论 ， 设 计 了 
CLAWS (Constitute Likelihood Automatic Word-tagging System) 系统 
来 给 LOB 语 料 库 的 100 万 词 的 语 料 做 目 动词 性 标注 ， 根 据 统计 信息 来 建 
立 算法 ， 目 动 标注 正确 率 达 96%， 比 基于 规则 的 TAGGIT 系 统 提高 了 将 
近 20%。 最近 他 们 同时 考察 三 个 相 邻 标记 的 同 现 频 率 ， 使 目 动 语法 标 
注 的 正确 率 达 到 99.5%。 这 个 指标 已 经 超过 了 人 工 标注 所 能 达到 的 最 
高 正确 率 。 


20 世 纪 60 年 代 初 ， 英 国 伦敦 大 学 硅 克 教授 主持 的 英语 用 法 调查 研 
究 课 题 组 曾经 收集 了 2000 个 小 时 的 谈话 和 广播 等 口语 素材 ， 并 把 这 些 
口语 素材 整理 成 书面 材料 ， 后 来 ， 瑞 典 隆 德 大 学 教授 斯 瓦尔 特 维 克 
(J.Svartvik) 主持 ， 把 这 些 书面 材料 全 部 录入 计算 机 ， 在 1975 年 建成 
了 伦敦 - 隆 德 英语 口语 语料库 (London-Lund corpus) ， 收 篇 日 87 篇 ， 
每 篇 5000 词 ， 共 为 43.4 万 词 ， 进 行 了 详细 的 韵律 标注 (prosodic 


marking ) 


以 上 这 三 个 语料库 都 储备 在 挪威 卑 尔 根 大 学 的 国际 现代 天 语 计算 
机 档案 (International Computer Archive of Modern English ， 人 简称 


ICAME) 的 数据 库 中 。 


1964 年 ， 朱 兰 德 (A.Juilland) 和 罗 德 里 盖 (E.Chang-Rodriguez) 
根据 大 规模 的 西班牙 语 资 料 来 编写 《西班牙 语 单词 频率 词典 》 0l 
(Frequency Dictionary of Spanish Words) 。 在 收集 语言 资料 时 ， 注 意 
到 了 抽样 框架 、 语 言 资料 的 平衡 性 、 语 言 货 料 的 代表 性 等 问题 。 


20 世 纪 80 年 代 以 后 ， 陆 续 建 立 了 一 些 以 词典 编纂 为 应 用 背景 的 大 
规模 语料库 。 在 辛 克 业 (John Sinclair) 教授 的 领导 下 ， 英 国 伯明翰 大 
学 (Birmingham University) 与 科林斯 出 版 社 (Harper Collins) 合作 ， 
建立 了 COBUILD 语 料 库 (Collins Birmingham University International 
Language Database， 首 字母 缩写 就 是 COBUILD) 


1987 年 ，Collins 出 版 社 出 版 了 建立 在 COBUILD 语 料 库 基础 上 的 英 
语词 典 ， 词 条 选 目 、 用 法 说 明和 释义 都 直接 来 自 真 实 的 语 料 ， 由 六 克 
莱 教 授 担任 总 编辑 ，COBUILD 词 典 出 版 后 ， 得 到 读者 的 广泛 好 评 ， 影 
响 很 大 ， 现 在 又 出 版 了 各 种 用 途 的 COBUILD 词 典 ， 并 编写 英语 课程 教 
科 书 (COBUILD English Course) 。2003 年 这 个 语料库 的 规模 已 经 达 


到 5 亿 词 次 ， 其 中 包含 1 500 万 词 次 的 口语 语料库 。 这 个 大 规模 的 
COBUILD 语 料 库 ， 又 可 以 叫做 “英语 银行 ”(Bank of English) 


20 世 纪 80 年 代 还 建立 了 上 明文 语料库 (Longman corpus) ， 也 应 用 
于 词典 编纂 。 这 个 语料库 由 肯 文 - 兰 卡 斯 特 英 语 语料库 (LLELC) - BH 
文 口语 语料库 (LSC) 和 朗 文 英语 学 习 语 料 库 (LCLE) 等 三 个 语料库 
组 成 。 这 个 语料库 主要 用 于 编纂 英语 学 习 词 典 ， 帮 助 外 国人 学 习 英 
语 。 规 模 为 2 000 万 词 次 。 


由 于 这 些 语料库 可 直接 用 于 词典 编 窜 ， 在 商业 上 和 获得 了 成 功 ， 语 
料 库 语言 学 的 研究 开始 从 纯 学 术 走 向 实用 ， 词 典 编 葵 是 语料库 语言 学 
发 展 的 推动 力 之 一 。 


美国 计算 语言 学 学 会 (The Association for Computational 
Linguistics, ACL) 发 起 倡议 的 数据 采集 计划 (Data Collection 
Initiative, DCI) ， 叫 做 ACL/DCI， 这 是 一 个 语料库 项 目 ， 其 宗旨 是 辣 
非 亚 利 的 学 术 团 体 提 供 语 料 ， 以 免除 费用 和 版 权 的 困扰 ， 用 标准 通用 
置 标语 言 (Standard General Mark-up Language, ， 简 称 SGML,，ISO 
8879，1986 年 公布 ) 和 文本 编码 规则 (Text Encoding Initiative， 简 称 
TED 统一 地 对 语料库 进行 置 标 ， 以 便于 数据 交换 。 这 样 的 工作 是 很 
有 价值 的 ， 它 为 语料库 在 不 同 计算 机 环境 下 进行 数据 交换 黄 定 了 基 
础 。ACLUDCI 的 语 料 范 围 广 泛 ， 包 括 华 尔 街 日 报 语料库 、 科 林 斯 英 
语词 典 、 布 朗 语料库 ， 还 有 双语 和 多 语 的 语 料 。 


20 世 纪 80 年 代 末 90 年 代 初 ， 美 国宾 儿 法 尼 亚 大 学 (Pennsylvania 
University) 开始 建立 “ 树 库 ” (Tree bank) ， 对 百 万 词 级 的 语 料 进行 句 
法 和 语义 标注 ， 把 线性 的 文本 语料库 加 工 成 为 表示 句子 的 句法 和 语义 
结构 的 树 库 。 这 个 项 目 由 宾 州 大 学 计算 机 系 的 马尔 库 斯 (M. Marcus) 


主持 ， 到 1993 年 已 经 完成 了 300 万 词 的 英语 句子 的 深加工 ， 进 行 了 句法 
结构 标注 。 


在 美国 宾 州 大 学 还 建立 了 语言 数据 联盟 (Linguistic data 
Consortium， 人 简称 LDC) ， 实 行 会 员 制 ， 有 163 个 语料库 (包括 文本 的 
以 及 口语 的 ) 参加 ， 共 享 语言 资源 。2000 年 ，LDC 发 行 了 一 个 中 文 树 
库 ， 包 含 10 万 词 ，4 185 个 句子 ， 这 是 世界 上 第 一 个 中 文 的 树 库 ， 可 展 
的 是 规模 比较 小 。 


国外 比较 著名 的 语料库 还 有 : 


AHI 语 料 库 : 美国 Heritage 出 版 社 为 编纂 《美国 传统 词典 》 
(American Heritage Dictionary) 而 建立 ， 有 400 万 词 。 


OTA 牛 津 文本 档案 库 (Oxford Text Archive) : 英国 牛津 大 学 计算 
中 心 建立 ， 规 模 为 10 亿 字 节 。 


BNC 英 国 国家 语料库 (The British National Corpus) : 1995 年 正式 
发 布 ， 使 用 文本 编码 规范 TEI 编 码 和 通用 标准 置 标语 言 SGML 的 国际 标 
准 ， 有 1 亿 词 次 ， 其 中 书面 语 9000 万 词 次 ， 口 语 1000 万 词 次 。 


RWC 日 语 语料库 : 日 本 痢 情 报 处 理 开 发 机 构 RWCP 人 研制， 包括 
《每 日 新 闻 》4 年 的 全 文 语 料 ， 语 素 标注 量 达 1 亿 条 。 


亚洲 各 语种 对 译作 文 语 料 库 : HAREE AAR, REE 
主持 ， 北 系 外 国语 大 学 日 本 学 研究 中 心 参加 。 


为 了 推进 语料库 研究 的 发 展 ， 欧 洲 成 立 了 TELRI 和 ELRA 等 专门 学 
会 。TELRI 是 跨 欧洲 语言 资源 基础 建设 学 会 (Trans-European Language 
Resources Infrastructure) AS EES, HERKEN, FERE 


特 (Wolfgang Teubert) 担任 协调 员 ， 由 欧洲 共同 体 提供 经 费 ， 其 目的 
在 于 建立 欧洲 诸 语言 的 语料库 ， 现 已 经 建成 相 拉 图 (Plato) 的 《理想 
国 》 (Politeia) 多 语 语料库 ， 建 立 了 计算 工具 和 资源 的 研究 文档 
TRACTOR  ( Research Archive of Computational Tools and 
Resources) ， 正 在 语料库 的 基础 上 建立 欧洲 语言 词 库 EUROVOCA ° 
TELRI 每 年 各 开 一 次 研讨 会 。 


— 


ELRA 是 欧洲 语言 资源 学 会 (European Language Resources 
Association) 的 首 字母 缩写 ， 


由 意大利 比萨 大 学 的 扎 普 利 (Zampolli) 教授 担任 主席 ，ELRA 负 
责 搜 集 、 传 播 语言 资源 并 使 之 商品 化 ， 对 于 语言 资源 的 使 用 提供 法 律 
文 持 。ELRA 建 立 了 欧洲 语言 资源 分 布 服务 处 ELDA (European 
Language Resources Distribution Agency) ， 人 负责 人 研制 并 推行 ELRA 的 战 
略 和 计划 。ELRA 还 组 织 语 言 资 源 和 评价 国际 会 议 LREC (Language 
Resources & Evaluation Congress) ， 每 两 年 一 次 。 第 一 次 会 议 于 1998 
年 在 西班牙 的 格拉 纳 达 (Granada) 举行 ， 第 二 次 会 议 于 2000 年 在 希腊 
的 雅典 (Athens) 召开 ， 第 三 次 会 议 于 2002 年 在 西班牙 的 拉 斯 帕尔马 
斯 (Las Palmas de Gran Canaria) 召开 ， 第 四 次 会 议 在 2004 年 在 葡萄 牙 
的 里 斯 本 (Lisbon) 举行 。 


第 五 六 ”中 国 的 语料库 研究 


从 1979 年 以 来 ， 中 国 就 开始 进行 机 器 可 读 语料库 (machine- 
readable corpus) 的 建设 ， 早 期 在 中 国 建立 的 主要 的 机 器 可 读 语料库 
有 : 


一 汉语 现代 文学 作品 语料库 〈1979 年 ) ，527 万 字 ， 武 汉 大 学 。 


一 ”现代 汉语 语料库 〈1983 年 ) ，2000 万 字 ， 北 京 航 空 航天 大 


学 。 
一 ”中 学 语文 教材 语料库 〈1983 年 ) ，106 万 8 千 字 ， 北 京师 范 大 
学 。 
一 ”现代 汉语 词 频 统计 语料库 (1983 年 ) ，182 万 字 ， 北 京 语言 学 
院 。 


早期 的 这 些 语料库 多 数 是 采用 手工 键入 的 方式 建立 的 ， 耗 时 耗 
力 ， 缺 乏 规范 ， 规 模 较 小 ， 重 用 性 送 。 为 了 建设 这 样 的 语料库 ， 需 要 
付出 艰 半 的 到 动 ， 北 乐 航空 航天 大 学 计算 机 系 刘 产 教 授 在 该 校 2 00077 
FH BRE HA BOR, SERA BAIS, DREI o KE 
语料库 的 早期 建设 者 的 敬业 精神 是 值得 我 们 得 敬 的 。 

北京 航空 航天 大 学 的 语料库 还 进行 了 词 频 统 计 和 汉语 书面 文本 目 
动 分 词 研 究 ， 发 现 了 两 种 不 同 的 分 词 歧 义 字 段 : 交集 型 收 义 字段 和 多 
XB B RU FBC: 

交集 型 歧义 切 分 字段 : 例如 : “地 面积 * 可 能 切 为 “地 面 * 或 “ 面 
积 ”,，“ 面 ”成 为 交 段 ， 从 而 产生 歧义 。 

多 义 组 合 型 上 收 义 切 分 字段 : 例如 : “马上 ”本 喘 是 一 个 词 ， 但 也 可 
以 切 为 “ 马 ?+“ 上 ”两 个 单词 ， 而 “马上 ?与 “ 马 ?+“ 上 ”的 含义 不 同 。 


他 们 曾 对 一 个 48 092 字 的 目 然 科 学 、 社 会 科学 样本 进行 了 统计 : 
交集 型 切 分 收 义 518 个 ， 多 义 组 合 型 切 分 歧义 42 个 。 据 此 推断 ， 中 文 文 


本 中 切 分 歧义 的 出 现 频 度 约 为 1.2 次 /100 字 ， 交 集 型 切 分 必 义 与 多 义 组 
合 型 切 分 歧义 的 出 现 比 例 约 为 12:1。 


为 了 推动 汉语 语料库 的 深入 研究， 我 国 还 建立 了 初步 的 分 词 规 
15: 1990 年 10 月 ， 在 计算 机 界 和 语言 学 界 的 共同 努力 下 ， 我 国 制定 了 
国家 标准 GB-13715《 信 息 处 理 用 现代 汉语 分 词 规范 》， 这 个 国家 标准 
提出 了 确定 汉语 单词 切 分 的 原则 ， 古 汉语 书面 语 目 动 切 词 的 重要 依 
据 。 


1991 年 ， 国 家 语言 文字 工作 委员 会 开始 建立 国家 级 的 大 型 汉语 语 
料 库 ， 以 推进 汉语 的 词法 、 名 法、 语义 和 语 用 的 研究 ， 同 时 也 为 中 文 
言 尽 处 理 的 研究 提供 语言 资源 ， 其 规模 为 7 000 万 汉字 。 这 个 语料库 是 
均衡 语料库 ， 其 语 料 要 经 过 精心 的 选材 ， 语 料 的 选材 应 受到 如 下 限 
制 |: 


(时 间 的 限制 : 语 料 描述 具有 历时 特征 ， 着 重 描述 共 时 特征 。 选 
取 从 1919 年 到 当代 的 语 料 (分 为 5 个 时 期 ， 以 1977 年 以 后 的 语 料 为 
dea 


@ 文 化 的 限制 ， 主 要 选取 受过 中 等 文化 教育 的 普通 人 能 理解 的 语 
料 。 


(3 使 用 领域 的 限制 语 料 由 人 文 与 社会 科学 类 、 上 自然 科学 类 和 综 
合 类 3 大 部 分 ， 人 文 和 社会 科学 再 分 为 8 大 类 29 小 类 ， 目 然 科 学 再 分 为 6 
大 类 ， 红 合 类 再 分 为 2 大 类 。 主 要 选取 通用 的 语 料 ， 优 先 选 取 社 会 科学 
和 人 文科 学 的 语 料 。 


为 了 加 工 这 个 国家 级 语料库 ， 国 家 社 科 基金 设立 了 社 科 重大 项 
目 “ 信 息 处 理 用 现代 汉语 词汇 研究 ”， 布 望 利用 该 项 目的 成 果 来 加 工 这 


个 语料库 。 该 课题 分 10 个 子 课 题 : 
(信息 处 理 用 现代 汉语 分 词 词 表 
人 歧义 切 分 与 专 有 名 词 识别 软件 
9) 词 的 构造 研究 
(现代 汉语 词类 及 标记 集 规范 
(5) 汉 语词 类 兼 类 研究 
(现代 汉语 的 语法 属性 描述 研究 
OD 现代 汉语 述 语 动词 机 器 词典 和 槽 关系 研究 
(8 汉语 知识 词典 建立 及 词汇 内 部 语义 网 络 描 述 研 究 
(9) 汉 语文 本 短语 结构 的 人 工 标注 
9 常 用 动词 语义 特征 及 词义 搭配 研究 


现在 ， 该 课题 已 经 结 项 ， 国 家 教育 部 语言 文字 应 用 俩 究 所 成 立 
了 “汉语 语料库 深加工 ”的 课题 组 ， 已 经 完成 了 7 000 万 字 语 料 的 深 加 
工 ， 正 在 逐步 地 把 这 个 生 语料库 变 为 熟 语 料 库 。 


1992 年 以 来 ,大量 的 语料库 在 人 研究 中 文 信息 处 理 的 单位 建立 起 
来 ， 语 料 库 成 为 了 人 研究 中 文 信息 人 处理 的 基本 语言 资源 。 没 有 语料库 的 
文 持 ， 中 文 信息 处 理 的 研究 将 会 寸步 难 行 。 目 前 ， 建 设 大 规模 真实 文 
本 语料库 的 单位 有 : CARA tk) Sb ROE > IDR AST Ee BÉ 
WAI ^ ICR Ss A RAS» LAS ` ERIE AS ` Um 


邮电 大 学 、 香 港 城市 大 学 、 东 北大 学 、 哈 尔 演 工业 大 学 、 中 国 传媒 大 
学 、 中 国 科学 院 软件 研究 所 、 中 国 科 学 院 目 动 化 所 、 北 乐 外 国语 大 学 
日 本 学 研究 中 心 、 人 台湾“ 中 央 研 究 院 ”语言 研究 所 (筹备 处 ) 


例如 ， 中 国 传媒 大 学 的 语料库 包括 文本 语料库 (7 000 多 万 字 ) 
音 视 频 语料库 (900 小 时 的 音频 和 视频 语 料 ) 和 精品 语料库 (如 著名 主 
WAN TA RATAN SME) ， 这 是 世界 上 规模 最 大 的 、 
多 模仿 的 汉语 传媒 有 声 语言 的 语料库 ， 语 料 库 加 工 体系 从 语音 开始 ， 
到 文字 、 词 语 、 句 子 、 篇 章 都 进行 了 标注 和 处 理 。 


我 国语 料 库 的 建设 与 语言 学 研究 有 着 密切 的 关系 。 例 如 ， 在 中 国 
传媒 大 学 语料库 的 基础 上 ， 进 行 了 汉语 同类 词 短语 的 研究 、 汉 语 插入 
语 的 研究 、 网 络 语言 研究 、 汉 语 熟 语 标记 研究 、 汉 语 * 有 "字句 研究 、 
汉语 “ 吧 * 字 研究 、 汉 语 “然后 "研究 、 主 持 人 韵律 特点 研究 等 。 语 料 库 
成 为 了 语言 学 研究 的 语言 资源 ， 又 成 为 了 语言 学 研究 的 工具 ， 有 力 地 
推动 了 语言 学 研究 的 发 展 。 


我 国 在 20 世 纪 80 年 代 中 期 就 建立 了 第 一 个 瑞 语 语料库 ， 即 上 海 交 
大 科技 英语 语料库 ， 人 简称 JDEST (Jiao Da English for Science and 
Technology) ， 这 个 语料库 是 由 上 海 交 通 大 学 建成 的 。JDEST 的 建 
成 ， 为 我 国 大 学 英语 教学 大 纲 的 制定 和 词 表 统 计 做 出 了 积极 的 贡献 。 
这 个 语料库 当时 在 欧洲 受到 语料库 语言 学 界 广 泛 关 注 ，JDEST 成 为 国 
际 第 一 代 语 料 库 。 后 来 在 我 国 建成 的 莫 语 语料库 还 有 : ICLE 中 国 子 语 
料 库 、 中 国 英语 学 习 语 料 库 、 大 学 学 习 者 英语 口语 语料库 、 中 国 专业 
英语 学 习 者 口语 语料库 、CEC 中 国 英语 语料库 、 中 学 英语 口语 语料库 
等 ， 这 些 英 语 语料库 都 与 中 国 的 外 语 教学 和 外 语 学习 紧 密 相 联 。 外 语 
教学 和 外 语 学 习 是 我 国 应 用 语言 学 的 重要 内 容 ， 是 语料库 推动 我 国 应 
用 语言 学 发 展 的 又 一 个 重要 内 容 。 


双语 平行 语料库 也 有 很 大 的 发 展 。 北 泵 外 国语 大 学 中 国 英 语 教 育 
中 心 研 制 了 英汉 双语 语料库 ， 北 京 外 国语 大 学 日 本 学 研究 中 心 研 制 了 
日 汉 双 语 语料库 。 此 外 ， 中 国 科学 院 软 件 人 研究 所 、 目 动 化 研究 所 也 都 
研制 了 有 一 定 规模 的 英汉 双语 语料库 。 


迄今 建立 的 单 语 语料库 不 少 ， 已 经 取得 了 烛 烛 的 成 绩 ， 但 是 双语 
并 行 语料库 不 容易 获得 ， 它 的 构建 和 加 工 是 很 困难 的 工作 。 现 在 我 国 
还 没有 高 质量 的 、 大 规模 真实 文本 的 英汉 双语 语料库 ， 更 没有 成 熟 
的 、 可 共 台 的 加 工 工具 ，2010 年 国家 社会 科学 基金 重大 项 目 中 有 一 项 
忠 是 “大 规模 英汉 平行 语料库 的 构建 与 加 工 研 究 *"， 资 助 强度 很 大 ， 可 
见 国 家 对 于 双语 语料库 建设 的 重视 。 


目前 ,语料库 的 深加工 受到 各 国学 者 的 普遍 重视 ， 很 多 国家 都 对 
语料库 文本 进行 句法 标注 (syntactic annotation) 和 语义 标注 
(semantic annotation) ， 把 语料库 进一步 加 工 成 树 库 。 例 如 ， 英 语 有 
英国 兰 卡 斯 特 一 利兹 树 库 (Lancaster-Leeds Tree Bank) 、 美 国有 宾 州 
大 学 的 宾 州 树 库 (Penn Tree Bank) ， 德 语 有 TIGER 树 库 和 NEGRA 树 
库 ， 捷 元 语 有 布拉格 大 学 的 PDT 树 库 。 


汉语 树 库 的 建设 也 取得 可 喜 的 成 绩 ， 例 如 ， 清 华 大 学 的 TCT 树 
荣 、 人 台湾 “中 央 研 究 院 ”的 Sinica 中 文 树 库 、 哈 尔 滨 工 业 大 学 的 汉语 依存 
树 库 、 中 国 传媒 大 学 的 中 文 依存 树 库 、 中 国 科 学 院 计算 技术 研究 所 的 
汉语 树 库 、 美 国宾 州 大 学 的 宾 州 中 文 树 库 (Penn Chinese Tree Bank) 
等 ， 这 些 树 库 都 成 为 了 重要 的 语言 资源 ， 是 语言 信息 自动 获取 的 重要 
工具 。 我 们 可 以 确 有 把 握 地 说 ， 树 库 的 建设 将 成 为 今后 语料库 研究 的 
一 个 发 展 趋势 。 


可 以 预见 ， 随 着 计算 机 技术 的 进一步 发 展 ， 根 据 现 有 的 语料库 数 
据 还 不 能 解决 的 很 多 问题 将 逐渐 有 可 能 逐一 得 到 解决 ， 因 为 人 们 在 不 
断 地 开发 狐 型 的 语料库 ， 并 在 编写 使 用 这 些 新 型 语料库 的 程序 。 


总 而 言 之 ， 语 料 库 给 语言 学 研究 提供 了 无 比 丰富 的 语言 资源 。 很 
多 几乎 已 经 成 为 定论 的 语言 规则 需要 我 们 根据 语料库 去 重新 认识 和 评 
价 ， 许 多 新 的 语言 学 思想 将 从 语料库 的 研究 中 产生 出 来 。 语 言 本 身 确 
实 是 无 比 复杂 的 ， 观 察 语言 现象 时 ， 我 们 决 不 能 掉以轻心 ， 我 们 应 当 
借助 于 语料库 ， 更 加 努力 地 工作 ， 从 而 推动 语言 学 和 自然 语言 处 理 的 
发 展 。 
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第 十 一 章 Pirmi 


前 面 几 章 ， 我 们 介绍 了 自然 语言 处 理 的 理论 和 方法 ， 这 是 本 书 的 
理论 部 分 。 从 本 章 开 始 ， 我 们 将 介绍 自然 语言 处 理 系统 的 应 用 ， 这 是 
本 书 的 应 用 部 分 。 


自然 语言 处 理 的 应 用 研究 日 新 月 异 。 由 于 计算 机 的 速度 和 存储 量 
的 增加 ， 使 得 在 计算 语言 学 的 一 些 应 用 领域 ， 特 别 是 在 语 首 合成 、 语 
音 识 别 、 文 字 识 别 、 拼 写 检 查 、 语 法 检查 这 些 应 用 领域 ， 有 可 能 进行 
商品 化 的 开发 。 目 然 语 言 处 理 的 算法 开始 被 应 用 于 “增强 交替 通 
信 ” (Augmentative and Alternative Communication ， 简 称 AAC) 中 ， 语 
音 合 成 、 语 音 识 别 和 文字 识别 的 技术 被 应 用 于 “移动 通信 ” (mobile 
communication) 中 。 除 了 传统 的 机 器 翻译 和 信息 检索 等 应 用 研究 进 一 
步 得 到 发 展 之 外 ， 信 息 抽 取 (information extraction) 、 问 答 系 统 
(question answering system) 、 自 动 文摘 (text summarization) 、 术 语 
的 自动 抽取 和 标 引 (term extraction and automatic indexing) 、 文 本 数据 
挖掘 (text data mining) 、 命 名 实体 识别 (naming entity recognition) ^ 
计算 机 辅助 语言 教学 (computer-assisted language learning) 、 子 语言 和 
受 限 语言 (sub-language and controlled language) 等 新 兴 的 应 用 研究 都 
有 了 长 足 的 进展 ， 此 外 ， 由 于 多 语言 互联 网 的 发 展 ， 目 然 语言 处 理 技 
术 在 多 语言 在 线 的 网 络 信息 处 理 (multilingual on-line natural language 
processing) 中 也 得 到 了 应 用 。 和 上 自然 语言 处 理 技术 的 应 用 研究 出 现 了 日 
新 月 异 的 局 面 。 


第 一 三 ”基于 规则 的 机 器 翻译 


机 器 翻译 是 自然 语言 计算 机 处 理 的 一 个 历史 悠久 的 部 门 。 


天 于 用 机 器 来 进行 语言 翻译 的 想法 ， 远 在 古 布 腊 时 代 整 有 人 提出 
过 了 “。 当 时 ， 人 们 曾经 试图 设计 出 一 种 理想 化 的 语言 来 代 蔡 种 类 驼 多 
形 却 各 有 异 的 目 然 语 言 ， 以 利于 在 不 同 民族 的 人 们 之 则 进行 思想 交流 ， 
曾 提 出 过 不 少 方案 ， 其 中 一 些 方案 吏 已 经 考虑 到 了 如 何 用 机 械 手 段 来 


分 析 语 言 的 问题 。 


20 世 纪 30 年 代 之 初 ， 法 国 科学 家 阿尔 楚 尼 (G. B. Artsouni) 提出 
了 用 机 器 来 进行 语言 翻译 的 想法 。 


1933 年 ， 苏 联 发 明 家 特 洛 扬 斯 基 (ILILTPOHHCKMÜ) 设计 了 用 
机 械 方 法 把 一 种 语言 翻译 为 另 一 种 语言 的 机 器 ， 并 在 同年 9 月 5 日 登记 
了 他 的 发 明 。 但 是 ， 由 于 20 世 纪 30 年 代 的 技术 水 平 还 很 低 ， 特 洛 扬 斯 
基 的 翻译 机 没有 制 成 。 


1946 年 ， 美 国宾 施法 尼 亚 大 学 的 埃 克 特 (J. P. Eckert) MRAR 
(J.W. Mauchly) 设计 并 制造 出 了 世界 上 第 一 台电 子 计算 机 ENIAC， 电 
子 计算 机 惊人 的 运算 速度 ， 局 示 着 人 们 考虑 翻译 技术 的 单 新 问题 。 因 
此 ， 在 电子 计算 机 问世 的 同一 年 ， 英 国 工程 师 布 斯 (A.D. Booth) 和 
韦 弗 在 讨论 电子 计算 机 的 应 用 范围 时 ， 就 提出 了 利用 计算 机 进行 语言 
目 动 翻译 的 想法 。1949 年 ， 韦 弗 发 表 了 一 份 以 《翻译 》 为 题 的 备 起 
录 ， 正 式 提出 了 机 器 翻译 问题 。 在 这 份 备 坊 录 中 ， 他 除了 提出 各 种 语 
言 都 有 许多 共同 的 特征 这 一 论点 之 外 ， 还 有 两 点 值得 我 们 注意 : 


第 一 ， 他 认为 翻译 类 似 于 解读 密码 的 过 程 。 他 说 : “ 当 我 阅读 一 篇 
用 汉语 写 的 文章 的 时 候 ， 我 可 以 说 ， 这 篇 文章 实际 上 是 用 英语 写 的 ， 
只 不 过 它 是 用 夯 外 一 种 奇怪 的 符号 编 了 码 而 已 ， 当 我 在 阅读 时 ， 我 十 
在 进行 解码 。” 他 的 这 段 话 非常 重要 ， 广 为 流传 ， 我 们 把 英文 原文 写 在 
下 面 : 


“T have a text in front of me which is written in Chinese but I am 
going to pretend that it is really written in English and that it has been 
coded in some strange symbols. All I need to do is strip off the code in 


order to retrieve the information contained in the text.” 


XB A o BA E ote OT ALR Se SAY NT TE TL SS EA 
WE. APNA BON ORR eB ° TR PAI I—T 
有 趣 的 故事 ， 布 朗 大 学 数学 系 的 吉尔 曼 (R. E. Gilmam) 曾经 解读 了 一 
篇 长 约 一 百 个 词 的 土耳其 文 密码 ， 而 他 既 不 懂 土 耳 其 文 ， 也 不 知道 这 
篇 密码 是 用 土耳其 文 写 的 。 韦 弗 认 为 ， 吉 和 尔 曼 的 成 功 足以 证 明 解 恋 密 
码 的 技巧 和 能 力 不 受 语言 的 影响 ， 因 而 可 以 用 解读 密码 的 办 法 来 进行 
Hlas aie ° 


第 二 ， 他 认为 原文 与 译文 “说 的 是 同样 的 事情 "， 因 此 ， 当 把 语言 
翻译 为 语言 B 时 ， 束 意味 着 ， 从 语言 A 出 发 ， 经 过 某 一 “通用 语 
言 ”(Universal Language) 或 “中 间 语 言 ”(Interlingua) ， 然 后 转换 为 语 
言 B， 这 种 “通用 语言 ”或 “中 间 语 言 "， 可 以 假定 是 全 人 类 共同 的 。 


可 以 看 出 ， 韦 弗 把 机 融 翻 译 仅 仅 看 成 一 种 机 械 的 解读 密码 的 过 
程 ， 他 远 远 没有 看 到 机 天 翻译 翻译 在 词法 分 机 、 句 法 分 析 以 及 语义 分 
析 等 方面 的 复杂 性 。 


由 于 学 者 的 热心 倡导 ， 实 业界 的 大 力 支 持 ， 美 国 的 机 器 翻译 研究 
一 时 兴盛 起 来 。1954 年 ， 美 国 乔治 救 大 学 在 国际 商用 机 器 公司 (IBM 
公司 ) 的 协同 下 ， 用 IBM-701 计 算 机 ， 进 行 了 世界 上 第 一 次 机 器 翻译 试 
验 ， 把 几 个 般 单 的 俄语 句子 翻译 成 英语 ， 接 着 ， 苏 联 、 英国 、 日 本 也 
进行 了 机 器 翻译 试验 ， 机 器 翻译 出 现 热 泣 。 


早期 机 右 翻 译 系 统 的 研制 受到 韦 弗 的 上 述 思 想 的 很 大 有 影响， 许多 
机 器 翻译 研究 者 都 把 机 右 翻 译 的 过 程 与 解读 密码 的 过 程 相 类 比 ， 试 图 
通过 查询 词典 的 方法 来 实现 词 对 词 的 机 器 翻译 ， 因 而 译文 的 可 读 性 很 
凌 ， 难 于 付 诸 实 用 ， 受 到 了 用 户 的 批评 。 


为 了 进一步 了 解 民意 ， 美 国 科学 院 在 1964 年 成 立 语言 自动 处 理 咨 
询 委 员 会 (Automatic Language Processing Advisory Committee, ， 简 称 
ALPAC 委 员 会 ) ， 调 查 机 器 翻译 的 研究 情况 ， 并 于 1966 年 11 月 公布 了 
一 个 题 为 《语言 与 机 器 》 (Language and Machine) 的 报告 ， 简 称 
ALPAC 报 告 ， 对 机 器 翻译 采取 和 否定 的 态度 ， 报 告 宣 称 : “在 目前 给 机 器 
翻译 以 大 力 文 持 还 没有 多 少 理 由 ”; 报告 还 指出 ， 机 器 翻译 研究 遇 到 了 
难以 克服 的 “语义 障碍 ” (semantic barrier) 


在 ALPAC 报 告 的 影响 下 ， 许 多 国家 的 机 夷 翻译 研究 低 测 ， 许 多 已 
经 建立 起 来 的 机 器 翻译 研究 单位 遇 到 了 行政 上 和 经 费 上 的 困难 ， 在 世 
界 苑 围 内 ， 机 需 翻 译 的 热 羯 突然 请 失 了 ， 出 现 了 择 前 淖 条 的 局 面 。 


NS, REAR, HES AA eka, A Re 
机 器 翻译 研究 ， 于 是 ， 在 20 世 纪 70 年 代 初 期 ， 机 器 翻译 又 出 现 了 复苏 
的 局 面 。 


如 果 我 们 把 从 1954 年 第 一 次 机 器 翻译 试验 到 ALPAC 报 告发 表 后 出 
现 的 萧条 看 成 是 机 器 翻译 的 草创 期 (1954 年 一 1970 年 ) ， 那 么 ， 从 70 


年 代 初 期 开始 ， 机 器 翻译 便 进 入 的 它 的 复苏 期 (1970 年 一 1976 年 ) 。 


在 这 个 复苏 期 ， 研 究 者 们 普 遇 认识 到 ， 原 语 和 译 语 两 种 语言 的 差 
异 ， 不 仅 只 表现 在 词汇 的 不 同上 上， 而且， 还 表现 在 句法 结构 的 不 同 
上 ， 为 了 得 到 可 读 性 强 的 译文 ， 必 须 在 目 动 句 法 分 析 上 多 下 功夫 。 


早 在 1957 年 ， 美 国学 者 严格 维 在 《句法 翻译 的 框架 》 (Framework 
for syntactic translation ) 一 文中 就 指出 ， 一 个 好 的 机 器 翻译 系统 ， 应 该 
分 别 地 对 原 语 和 译 语 都 作出 恰如其分 的 描写 ， 这 样 的 描写 应 该 互 不 影 
啊 ， 相 对 独立 。 英 格 维 主张 ， 机 器 翻译 可 以 分 为 三 个 阶段 来 进行 。 


第 一 阶段 :用 代码 化 的 结构 标志 来 表示 原 语文 句 的 结构 ; 
第 二 阶段 : 把 原 语 的 结构 标志 转换 为 诺 语 的 结构 标志 ; 
第 三 阶段 : 构成 译 语 的 输出 文句 。 


第 一 阶段 只 涉及 原 语 ， 不 受 译 语 的 影响 ， 第 三 阶段 只 涉及 主语， 
不 受 原 语 的 影响 ， 只 是 在 第 二 阶段 才 设 计 到 原 语 和 译 语 二 者 。 在 第 一 
阶段 ， 除 了 作 原 语 的 词法 分 析 之 外 ， 还 要 进行 原 语 的 句法 分 析 ， 才 能 
把 原 语 文句 的 结构 表示 为 代码 化 的 结构 标志 。 在 第 二 阶段 ， 除 了 进行 
原 语 和 详 语 的 词汇 转换 之 外 ， 还 要 进行 原 语 和 详 语 的 结构 转换 ， 才 能 
把 原 语 的 结构 标志 变 成 译 语 的 结构 标志 。 在 第 三 阶段 ， 除 了 作 详 语 的 
词法 生成 之 外 ， 还 要 进行 译 语 的 句法 生成 ， 才 能 正确 地 输出 译文 的 文 
&] 


英 格 维 的 这 些 主张 ， 在 这 个 时 期 广 为 传 播 ， 并 被 机 此 翻译 系统 的 
开发 人 员 普 遇 接 受 ， 因 此 ， 这 个 时 期 的 机 器 翻译 系统 几乎 都 把 句法 分 
析 放 在 第 一 位 ， 并 且 在 句法 分 析 方 面 取得 了 很 大 的 成 绩 。 


这 个 时 期 机 器 翻译 的 另 一 个 特点 是 语法 (grammar) 与 算法 
(algorithm) 分 开 。 


早 在 1957 年 ， 英 格 维 就 提出 了 把 语法 与 “机 制 ”(mechanism) 分 开 
的 思想 。 英 格 维 所 说 的 “机 制 ”， 实 质 上 就 是 算法 (algorithm) 。 所 谓语 
法 与 算法 分 开 ， 束 古 要 把 语言 分 析 和 程序 设计 分 开 ， 程 序 设计 工作 者 
提出 规则 摘 述 的 方法 ， 而 语言 学 工作 者 使 用 这 种 方法 来 摘 述 语言 的 规 
则 。 语 法 和 算法 分 开 ， 是 机 器 翻译 拉 术 的 一 大 进步 ， 它 非 党 有 利于 程 
序 设计 工作 者 与 语言 工作 者 的 分 工 合作 。 


这 个 复苏 期 的 机 器 翻译 系统 的 典型 代表 是 法 国 格 勒 诺 布尔 理科 医 
科大 学 应 用 数学 研究 所 ，IMAG) 自动 翻译 中 心 (CETA) 的 机 器 翻译 
系统 。 这 个 自动 翻译 中 心 的 主任 沃 古 瓦 (B.Vouquois, 1930—1985) 
教授 明确 地 提出 ， 一 个 完整 的 机 器 翻译 过 程 可 以 分 为 如 下 六 个 步骤: 


(1) 原 语词 法 分 析 


(2) 原 语句 法 分 析 


(3) 原 语 译 语 词汇 转换 
(4) 原 语 译 语 结构 转换 
(5) 译 语句 法 生成 


(6) 译 语词 法 生成 


这 六 个 步骤 形成 了 “机 器 翻译 金字 塔 ”(MT pyramid) 。 其 中 ， 第 
一 、 第 二 步 只 与 源 语 言 有 关 ， 第 五 、 第 六 步 只 与 目标 语言 有 关 ， 只 有 
第 三 、 第 四 步 率 涉 到 源 语言 和 目标 语言 二 者 。 可 以 看 出 ， 这 个 机 磊 翻 


译 金 子 塔 的 左 侧 是 源 语言 的 分 析 ， 右 侧 十 目标 语言 的 生成 ， 中 间 是 源 
语言 到 目标 语言 的 转换 。 源 语言 的 分 析 是 独立 于 目标 语言 的 生成 ， 只 
是 在 转换 部 分 才 同时 涉及 源 语言 和 目标 语言 。 这 样 的 格局 ， 反 映 了 沃 
古 瓦 教授 “独立 分 析 - 独 立 生 成 -相关 转换 ”的 思想 。 这 种 思想 ， 后 来 成 为 
了 基于 规则 的 机 器 翻译 中 的 “独立 分 析 - 独 立 生成 -相关 转换 ”的 方法 论 原 
则 。 


他 们 用 这 种 研制 的 俄 法 机 右 翻 译 系统 ， 已 经 接近 实用 水 平 。 很 多 
基于 规则 的 机 器 翻译 系统 ， 痢 是 根据 这 样 的 机 器 翻译 金字 塔 来 构建 系 
IS 


中 间 语 言 


语义 分 析 语义 生成 
语义 转换 
句法 分 析 句法 生成 
句法 转换 


直接 翻译 


源 语言 目标 语言 
图 11.1 机 器 翻译 金字 塔 


在 这 个 机 万 翻译 金字 震中 ， 我 们 要 尽量 使 右 侧 的 目标 语言 与 左 侧 
的 涯 语言 等 价 ， 为 此 ， 可 以 使 用 “直接 翻译 ”, “ASR”, “TER 
换 ? 等 技术 手段 ， 使 目标 语言 尽 可 能 地 再 近 产 语言 。 显 而 易 见 ， 在 目前 


CC 


的 技术 条 件 下 ， 目 标语 言 与 源 语言 要 做 到 百分之百 的 等 价 还 是 不 可 外 
的 。 


Nae MF eo FRR EE PIS”, Roe BEA C 
译 》 备 起 好 中 假定 存在 的 一 种 全 人 类 共同 的 “通用 语言 *"。 这 种 “中 间 语 
言 ” 或 “通用 语言 "， 是 机 器 翻译 中 一 种 理想 的 境界 ， 目 前 还 不 存在 ， 因 
此 ， 我 们 在 具体 的 机 右 翻 译 系统 中 ， 还 应 该 使 用 “分 析 一 转换 一 生 
成 ”的 技术 ， 尽 量 保证 目标 语言 对 于 源 语言 的 忠实 性 (adequacy) ， 同 
时 也 保证 机 器 翻译 出 来 的 目标 语言 尽 可 能 地 流畅 ， 具 有 较 高 的 流畅 性 
(intelligibility) 。“ 忠 实 性 * 和 “流畅 性 ”应 当 是 基于 规则 的 机 器 翻译 系 
统 的 评测 标准 。 


他 们 还 根据 语法 与 算法 分 开 的 思想 ， 设 计 了 一 套 机 器 翻译 软件 
ARIANE-78， 这 个 软件 分 为 ATEF, ROBRA, TRANSFZIISYGMORU S^ 
部 分 。 语 言 工作 者 可 以 利用 这 个 软件 来 描述 自然 语言 的 各 种 规则 。 其 
中 ，ATEF 是 一 个 非 确 定性 的 有 限 状 态 转 换 器 ， 用 于 原 语词 法 分 析 ， 它 
的 程序 接收 原 语文 句 作 为 输入 ， 并 提供 出 该 文句 中 每 个 词 的 形态 解释 
作为 输出 ; ROBRA 是 一 个 树 形 图 转换 器 ， 它 的 程序 接收 词法 分 析 的 结 
果 作 为 输入 ， 借 助 语法 规则 对 此 进行 运算 ， 输 出 能 表示 文句 结构 的 树 
Æ Bl; ROBRA 还 可 以 按 同样 的 方式 实现 结构 转换 和 人 句法 生成 ; 
TRANSF 可 借助 与 双语 词典 实现 词汇 转换 ，SYGMOR 是 一 个 确定 性 的 
树 一 链 转换 器 ， 它 接收 译 语句 法 生成 的 结果 作为 输入 ， 并 以 字符 链 的 
形式 提供 出 译文 。 


通过 大 量 的 科学 实验 的 实践 ， 机 可 翻译 的 研究 着 们 认识 到 ， 机 缆 
翻译 中 必须 保持 原 语 和 译 语 在 语义 上 的 一 致 ， 也 束 是 说 ， 一 个 好 的 机 
霹 翻 译 系统 应 该 把 原 语 的 语义 准确 无 误 地 在 译 语 中 表现 出 来 。 这 样 ， 
语义 分 析 在 机 器 翻译 中 越 来 越 受到 重视 。 


美国 斯 坦 福 大 学 威 尔 克 斯 提出 了 “优选 语义 学 ”(preference 
semantics) ， 并 在 此 基础 上 设计 了 英法 机 器 翻译 系统 ， 这 个 系统 特别 
强调 在 原 语 和 译 语 生成 阶段 ， 都 要 把 语义 问题 放 在 第 一 位 ， 英 语 的 输 
入 文句 首先 被 转换 成 某 种 一 般 化 的 通用 的 语义 表示 ， 然 后 再 由 这 种 语 
义 表示 生成 法 语 译文 输出 。 由 于 这 个 系统 的 语义 表示 方法 比较 细致 ， 
能 够 解决 仅 用 句法 分 析 方 法 难于 解决 的 卜 义 、 代 词 指 代 等 困难 问题 ， 


译文 质量 较 高 。 


20 世 纪 70 年 代 末 ， 机 器 翻译 进入 了 第 三 个 时 期 一 一 繁 采 期 (1976 
年 至 今 ;。 繁 采 期 的 最 重要 的 特点 ， 是 机 器 翻译 研究 走向 了 实用 化 ， 
出 现 了 一 大 批 实用 化 的 机 器 翻译 系统 ， 机 器 翻译 产品 开始 进入 市 场 ， 
变 成 了 商品 ， 由 机 器 翻译 系统 的 实用 化 引起 了 机 器 翻译 系统 的 商品 
化 。 


机 器 翻译 的 繁荣 期 是 以 1976 年 加 拿 大 蒙特 利 尔 大 学 与 加 拿 大 联邦 
政府 翻译 局 联合 开发 的 实用 性 机 器 翻译 系统 TAUM-METEO 正 式 提 供 天 
气 预 报 服务 为 标志 的 。 这 个 机 器 翻译 系统 投入 实用 之 后 ， 每 小 时 可 以 
翻译 6 万 一 30 万 个 词 ， 每 天 可 以 翻译 1500 一 2000 篇 天 气 预 报 的 资料 ， 并 
能 够 通过 电视 、 报 纸 立 即 公 布 。TAUM-METEO 系 统 是 机 器 翻译 发 展 史 
上 的 一 个 里 程 碑 ， 它 标志 着 机 器 翻译 由 复苏 走向 了 繁 采 。 


日 本 富士 通 公 司 开发 的 AILAS-I (Automatic Translation System-I) 
系统 是 一 个 建立 在 大 型 计算 机 上 的 英 日 机 器 翻译 系统 ， 该 系统 以 句法 
分 析 为 中 心 ， 可 进行 科学 技术 文章 的 翻译 ， 在 FACOM M380 计 算 机 
上 ， 每 小 时 可 翻译 60 000 词 。 


日 本 富士 通 公 司 开 发 的 ATLAS-I 机 器 翻译 系统 也 建立 在 大 型 计算 
机 上 ， 但 其 翻译 方式 与 AILAS-I 不 同 。ATLAS-I 以 句法 分 析 为 中 心 ， 而 


ATLAS-I[ 则 以 语义 分 析 为 中 心 。 该 系统 建立 了 用 于 表示 概念 之 间 关 系 
和 客观 世界 知识 的 “世界 模型 "， 在 译文 生成 时 ， 特 别 注意 单词 之 间 的 
搭配 关系 和 邻接 关系 ， 在 机 器 翻译 过 程 中 ， 采 用 一 种 叫做 “概念 构 
造 * 的 中 间 语 言 来 作为 原 语 和 译 语 的 共同 表达 。 该 系统 目前 用 于 日 英 机 
器 翻译 。 


此 外 ， 日 本 的 实用 化 机 器 翻译 系统 还 有 : 日 立 公 司 开 发 的 HICATS 
Hitachi Computer Aided Translation System) 英 日 、 日 英 机 器 翻译 系 
， 日 本 电气 公司 开发 的 PIVOT 英 日 、 日 英 机 器 翻译 系统 ， 三 葵 电 机 
司 开 发 的 MELTRAN 日 瑞 机 器 翻译 系统 ， 冲 电气 公司 开发 的 PENSEE 
瑞 机 器 翻译 系统 ， 理 光 公 司 开发 的 RMT 喘 日 机 器 翻译 系统 ， 三 洋 电 
气 公 司 开 发 的 SWP-7800 日 英 机 需 翻 译 系统 ， 东 之 公司 开发 的 TAURAS 
英 日 机 器 翻译 系统 ， 日 本 布 拉 维 斯 公司 (BRAVICE 


INTERNATIONAL) 研制 的 BRAVICE PAK 11/73 日 英 机 器 翻译 系统 
AE o 
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在 欧美 ， 除 了 TAUM-METEO 机 器 翻译 系统 之 外 ， 还 陆续 推出 了 一 
批 实用 化 的 机 器 翻译 系统 。 


法 国 纺织 研究 所 的 TTTUS-IV 系 统 ， 可 以 进行 英 、 德 、 法 、 西 班 牙 
等 四 种 语言 的 互 译 ， 每 种 语言 都 有 一 部 14 000 个 词 的 机 器 词典 ， 每 秒 钟 
可 译 240 个 词 ， 主 要 用 于 翻译 纺织 技术 方面 的 文献 。 


美国 在 乔治 敦 大 学 机 器 翻译 系统 的 基础 上 ， 进 一 步 开发 了 大 型 的 
机 器 翻译 系统 SYSTRAN,， 已 提供 试用 。 例 如 ， 提 供给 美国 空军 的 
SYSTRAN 系 统 ， 词 典 有 16.8 万 个 词 干 形式 和 13.6 万 个 词组 ， 可 进行 俄 
喘 机 器 翻译 ， 每 小 时 可 翻译 15 万 词 ， 提 供给 美国 拉 特 塞 元 (Latsec) 公 
H]BJSYSTRANZRZE, n[tir BA ^ RR ER ` DIE DEUS 


译 ， 每 小 时 可 译 30 万 一 35 万 个 词 。SYSTRAN 是 目前 应 用 最 为 广泛 、 所 
开发 的 语种 最 为 丰富 的 一 个 实用 化 机 器 翻译 系统 。 


美国 罗 各 斯 (LOGOS) 公司 开发 的 LOGOS-II 机 器 翻译 系统 ， 可 
进行 英语 一 越南 语 机 器 翻译 和 英 俄 机 器 翻译 ， 词 典 有 10 万 个 词 。 

美国 国家 航空 航天 局 的 NASA 系 统 ， 可 进行 俄 英和 英 俄 机 器 翻译 。 

美国 魏 德 纳 (WEIDNER) 通讯 公司 WwWCC 的 WEIDNER 机 器 翻译 系 
统 ， 可 进行 英语 与 法 语 、 英 语 与 德语 、 英 语 与 西班牙 语 、 英 语 与 葡萄 
牙 语 之 间 的 双 癌 机 器 翻译 ， 并 可 进行 英语 一 阿拉 伯 语 的 单 向 机 器 翻 


译 。 


设 在 华盛顿 的 泛 美 卫生 组 织 人 研制 成 的 PAHO 系 统 ， 可 进行 西班牙 语 
一 英语 的 机 器 翻译 。 从 1980 年 以 来 , 已 经 翻译 了 100 多 万 词 的 资料 。 近 
来 ， 他 们 又 推出 了 ENGSPAN 和 SPANAM 两 个 实用 化 系统 。 


德国 西门 子 (SIEMENS) 公司 与 美国 德 克 了 萨 斯 大 学 (Texas 
University) 合作 ， 人 研制 成 METAL 系 统 ， 可 进行 德 英 机 器 翻译 ， 词 典 包 
舍 1 万 个 词 条 。 


f& HE] p ^R X 2£  ( Universität des Saarlandes ) 人 研制 成 SUSY 
(Saarbrücken Automatic Translation System) 系统 ， 以 德语 为 中 介 ， 可 
以 进行 俄语 、 英 语 、 法 语 、 世 界 语 的 机 妖 翻 译 。 比 如 ， 由 英语 译 成 法 
语 ， 首 先 要 由 英语 译 成 德语 ， 表 由 德语 译 成 法 语 ， 每 小 时 可 译 15 000 
词 。 


此 外 ， 还 有 一 些 大 规模 的 机 器 翻译 系统 正在 研制 之 中 ， 例 如 ， 
EUROTRA 计 划 、Mu 系 统 、ODA 计 划 、DLT 系 统 等 。 


1978 年 ， 欧 洲 共 同体 在 继续 使 用 和 发 展 SYSTRAN 系 统 的 同时 ， 提 
出 了 欧 共 体内 七 种 语言 (后 来 变 为 九 种 ) 之 间 进 行 任 一 方向 翻译 的 多 
语种 机 器 翻译 计划 EUROTRA， 此 计划 于 1982 年 正式 实施 ， 前 后 延续 了 
十 多 年 ， 至 今 尚 未 达到 预期 的 结果 。 


日 本 在 提出 第 五 代 计 算 机 计划 的 同时 ， 于 1982 年 至 1986 年 由 政府 
开展 了 英 日 、 日 英 机 器 翻译 Mu 系统 的 研制 ， 接 着 ， 又 由 通 产 省 出 面 ， 
组 织 与 亚洲 四 个 邻 国 (中国 、 印 度 尼 西 亚 、 马 来 西亚 、 泰 国 ) 合作 研 
究 日 语 、 汉 语 、 印 度 尼 西亚 语 、 马 来 语 、 泰 语 五 种 语言 互 译 的 多 语言 
机 器 翻译 ODA 计 划 ， 原 定 于 1987 年 至 1992 年 完成 ， 后 来 延长 至 1995 年 
初 完 成 。 


欧洲 共同 体 在 1982 年 开始 实施 EUROTRA 计 划 的 同时 ， 还 支持 了 多 
语言 机 器 翻译 系统 DLT 的 可 行 性 研究 。 从 1984 年 开始 ， 改 由 荷兰 政府 和 
谷 兰 的 一 家 软件 公司 BSO 各 出 资 一 半 对 此 系统 的 研制 进行 长 期 的 文 
持 ， 从 1984 年 到 1992 年 每 年 投资 均 在 100 万 美元 左右 。DLT 系 统 原 打算 
20 世 纪 90 年 代 中 期 开始 实用 化 ， 可 是 至 今 尚未 得 到 满意 的 结果 。 


我 国 是 继 美国 、 苏 联 、 英 国之 后 ， 世 界 上 第 四 个 开展 机 右 翻 译 人 研 
完工 作 的 国家 。 当 今 在 机 融 翻 译 方面 居于 先进 水 平 的 日 本 ， 是 在 1958 
年 才 开 始 进行 机 融 翻 译 的 ， 起 步 比 我 国 为 晚 。 


与 国外 机 器 翻译 的 发 展 情况 相 比 较 ， 我 国 机 右 翻 译 除了 有 草创 
期 、 复 苏 期 和 党 末期 之 外 ， 由 于 文化 早 命 的 影响 ， 还 有 一 个 非 币 特别 
的 时 期 一 一 停 请 期 ， 而 且 ， 由 于 我 国 机 需 翻 译 在 理论 上 和 方法 上 以 及 
设备 上 的 的 子 都 很 薄 ， 我 国 机 句 翻 译 的 每 一 个 时 期 又 都 比 国外 机 颖 翻 
译 的 同样 时 期 稍微 浪 后 。 而 且 ， 我 国 早期 的 机 右 翻 译 基 本 上 痢 古 基于 


规则 的 机 旭 翻 译 ， 语 言 学 家 在 机 右 翻 详 人 研究 中 ， 往 往 起 看 举足轻重 的 
作用 。 这 些 都 是 我 国 机 右 翻 详 发 展 的 特点 。 


1956 年 至 1966 年 是 草创 期 。 在 这 个 时 期 ， 我 国学 者 对 机 如 翻 译 进 
行 了 初步 的 探索 和 试验 。 早 在 1956 年 ， 国 家 便 把 机 器 翻译 研究 列 入 了 
我 国 科 学 工作 的 发 展 规 划 ， 成 为 其 中 的 一 个 课题 ， 课 题 的 名 称 是 :“ 机 
器 翻译 、 自 然 语言 翻译 规则 的 建立 和 自然 语言 的 数学 理论 ”。1957 年 ， 
中 国 科 学 院 语言 研究 所 与 计算 技术 人 研究 所 合作 ， 开 展 俄 汉 机 器 翻译 的 
研究 。1959 年 ， 他 们 在 我 国 制造 的 104 大 型 通用 电子 计算 机 上 ， 进 行 了 
俄 汉 机 怖 翻译 试 败 ， 翻 译 了 9 个 不 同类 型 的 、 较 为 复杂 的 句子 。 在 这 个 
草创 时 期 ， 北 京 外 国语 学 院 、 北 京 俄语 学 院 、 广 州 华南 工学 院 、 哈 尔 
滨 工 业 大 学 也 分 别 成 立 了 机 器 翻译 研究 组 ， 开 展 俄 汉 或 英汉 机 器 翻译 
的 试验 。 


1966 年 至 1975 年 是 停 清 期 ， 在 这 个 时 期 ， 除 了 极 少 数 的 机 器 翻译 
研究 者 在 极端 恶劣 的 条 件 下 继续 进行 理论 探索 之 外 ， 没 有 进行 任何 的 
机 器 翻译 研究 和 试验 。1974 年 在 重庆 一 家 计算 机 杂志 上 发 表 的 综述 国 
外 机 器 翻译 新 理论 的 长 篇 论文 ， 成 为 了 这 个 时 期 唯一 的 机 器 翻译 理论 
成 果 ， 它 有 如 空谷 之 足音 ， 辟 起 了 处 于 困境 中 的 机 器 翻译 研究 者 的 学 
术 勇 气 。 


1975 年 至 1987 年 是 复苏 期 ， 在 这 个 时 期 ， 我 国 机 器 翻译 研究 重 振 
旗 鼓 ， 开 始 复 苏 ， 继 续 进 行 机 器 翻译 研究 。1975 年 11 月 ， 在 中 国 科 学 
技术 情报 研究 所 设立 了 一 个 由 情报 所 、 语 言 所 和 计算 所 等 单位 的 工作 
人 员 组 成 的 机 器 翻译 协作 研究 组 ， 以 冶金 题 录 5 000 条 为 试验 材料 ， 制 
定 英汉 机 器 翻译 方案 并 上 机 试验 。1978 年 5 月 ， 在 计算 所 111 机 上 进行 
抽样 试验 ， 抽 样 20 条 ， 达 到 了 预期 的 效果 。 在 这 个 时 期 ， 我 国学 者 还 


进行 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 翻译 试验 以 及 法 汉 、 德 汉 、 日 汉 
机 看 翻译 实验， 取得 了 一 定 的 成 效 。 


下 面 是 本 书 作者 设计 的 汉 一 法 、 英 、 日 、 俄 、 德 多 语言 机 器 翻译 
系统 FAJRA 于 1981 年 11 月 4 日 在 法 国 格 勒 详 布 尔 理 科 医 科大 学 的 IBM- 
4341 中 型 计算 机 上 进行 汉 外 机 器 翻译 的 一 个 例子 。 他 输入 了 一 篇 汉语 
的 短文 ， 得 到 了 了 法语、 英语、 日语、 俄语、 德语 等 5 种 外 国语 的 机 器 翻 
译 译 文 。 


汉语 输入 如 下 : 
汉语 输入 
4 Novembre 1981 


语言 和 通讯 在 人 类 的 生活 中 起 着 重要 的 作用 。 学 者 们 正在 积 
极地 研究 着 语言 的 目 动 翻译 。 他 们 提出 了 自动 机 的 理论 和 形式 语 
法 的 理论 。 目 动机 是 能 够 识别 语言 的 一 种 抽象 机 器 。 语 法 的 规则 
能 够 把 一 个 树 形 图 目 动 地 转换 成 男 一 个 树 形 图 。 这 个 目 动 翻译 的 
系统 已 经 被 他 们 使 用 了 五 年 。 如 果 我 们 把 这 个 系统 同 其 它 一 些 系 
统 相 比较 ， 束 可 以 看 出 它 的 优点 。 


得 到 的 法 语 、 英 语 、 日 语 、 德 语 和 俄语 等 五 种 外 语 和 输出 如 下 : 
法 语 输出 
4 Novembre 1981 


Le langage et la communication jouent un r[]le important dans la 


vie humaine. Les savants sont en train d'étudier activement la traduction 


automatique des langages. Ils ont proposé la théorie des automates et la 
théorie des grammaires formelles. Un automate es une machine 
abstraire qui peut reconna[ [tre le langage. La règle de la grammaire peut 
transformer automatiquement une arborescence en une autre 
arborescence. Ce systéme de la traduction auotmatique a été utilis par 
eux pendant cinq ans. Si nous comparons ce systéme à d'autres 


systémes, alors nous pouvons voir ses avantage. 


英语 输出 
4 Novembre 1981 


Language and communication play important role in human life. 
Scholars are actively studying automatic translation of languages. They 
have proposed the theory of automaton and the theory of formal 
grammar. An automaton is an abstract machine that can recognize 
language. Grammar rule can transform a tree graph to another tree 
graph automatically. This system for automatic translation had been 
used by them for five years. If we compare this system with other 


systems, then we can see its advantage. 


日 语 输出 
4 Novembre 1981 


Bae CB fe I ATO ETSI EA SER UOS Ws 
者 人 注 言语 中 目 动 翻 识 丰 热心 人 研究 UL TOS o SIL Ab V bY 
理论 上 形式 文法 理论 在 提案 U CRS 。 才 -了 上 Ya 
aoa? b Z a dic di 
EoO0mXoz2z*58omXorz27iBSAmuExm5lcr5 


TZ co AMMROELMOZOYAFARESK ED THER 
Rpt COP COV AF AERHWOV AT AE LASS eo 
bhiito-sm«eonsectctsck&5s 

俄语 输出 


4 Novembre 1981 


A3bIK H KOMMyHHKaHHsA UrpartoT BAaKHYIO POJIb B KH3HH 
uenoBeuecTBa. YuéHble aKTHBHO  H3yHdlO0OT aBTOMaTHUeckKHii 
nepeBOoA A3bIKOB.OHH BbIABHTalOT TeopHIOaBTOMaTa H TeopHro 
dopMasIbHOK rpaMMaTHrH.ABTOMaT eCTb OAHa aÓ6crpakrHas 
MaHIHHa ,  KOTOpas  MOxeT pacno3HaBaTb ”93PIK.IIpaBHro 
rpaMMaTHrH MOKeT  aBTOMaTHUeckH [1peBpalliaTb OJMHy 
ApeBoBH/AHylo cxeMy Ha /Ipyryto /IDeBOBH/IHyIO cxeMy. DTa cHcreMa 
aBTOMaTHHeCKOTO IepeBO/[a HCIIO/UIE3OBaHa HMH Yke IIHTP JIET. 
ECJIH MPI cDaBHHBaeM 3Ty CHCTeMy C /IDyTHMH CHCTeMaMH TO MBI 


MOKeM BH/IeTb ee rnpeunMyriecTBa. 


德语 输出 
4 Novembre 1981 


Die Sprache und die Kommunikation spielen im Leben der 
Menschen wichtige Rolle. Die Wissenschaftler sind gerade dabei, die 
automatische []bersetzung der Sprachen aktiv zu studieren. Sie haben 
die Theorie der Automaten und die Theorie der formalen Grammatiken 
Vorgeschlagen. Ein Automat ist eine abstrakte Maschine, die die 
Sprache erkennen kann. Die Grammatikregel kann einen Baumgraphen 


in einen anderen Baumgraphen automatisch umwandeln. Dieses System 


zur automatischen []bersetzung war von Ihnen soll fünf Jahren 
verwendet worden. Wenn wir dieses System mit anderen Systemen 


vergleichen, dann kónnen wir seinen Vorzug sehen. 


这 是 1981 年 做 的 机 器 翻译 工作 。1981 年 距 今 已 经 有 30 年 ， 在 当时 
的 技术 条 件 下 ， 本 书 作者 得 到 的 这 样 的 机 器 翻译 结果 是 难 能 可 吐 的 。 


1987 年 至 今 是 党 末期 。 这 个 时 期 生 以 *“ 科 译 1 号 ”机 天 翻 译 系统 的 问 
世 为 标志 的 。 继 “ 科 译 1 号 之后， 一 系列 的 实用 化 商品 化 的 机 瑚 翻译 系 
统 如 雨 后 春 筹 般 地 推 癌 市场， 我 国 的 机 咒 翻 译 迈 加 了 实用 化 和 商品 化 
的 阶段 。 


中 国人 民 解 放 军 军事 科学 院 研 制 了 “ 科 详 1 号 ?实用 型 全 文 与 题 孙 鳞 
容 的 英汉 机 天 翻译 系统 ， 于 1987 年 在 北京 通过 了 技术 鉴定 。“ 科 译 1 
号 ”系统 的 语言 理论 基础 古董 振东 提出 的 逻辑 语义 结构 。 和 董 振东 是 “ 科 
译 1 号 ”的 设计 者 ， 他 认为 ,逻辑 语 义 是 词典 信息 给 定 的 出 发 点 ， 征 原 
语 分 析 的 目标 ， 是 英汉 语言 转换 的 主要 平面 ， 因 此 ， 必 须 对 逻辑 语义 
给 予 特别 的 注意 ， 当 然 也 要 注意 词法 和 人 句法， 原 语 分 析 采 用 成 分 功能 
关系 语法 ， 分 析 与 生成 相对 独立 。“ 科 译 1 号 ”系统 的 基本 原理 是 ， 由 原 
语 的 线性 结构 出 发 ， 经 过 多 层次 、 多 次 数 的 扫描 ， 按 规则 的 顺序 匹 
配 ， 形 成 以 动词 为 根 结 点 ， 以 逻辑 语义 项 为 主 结 点 的 多 结 点 、 多 标记 
的 网 形 狗 ， 最 后 ， 从 根 结 点 逐 层 展开 ， 形 成 译 语 的 线性 结构 ， 得 到 相 
应 的 译文 。 该 系统 还 采用 了 自行 设计 的 专用 的 形式 描述 语言 来 书写 自 
然 语言 的 处 理 规则 ， 实 现 了 语言 规则 与 计算 机 程序 的 彼此 独立 。 


此 外 ， 该 系统 还 具有 如 下 的 翻译 文 援 手段 : 
(1) 词典 与 规则 库 的 增添 和 修改 手段 ; 


(2) 翻译 过 程 的 追踪 和 监测 手段 ; 
(3) 为 用 户 提供 批量 专业 术语 的 增添 手段 ; 
(4) 人 用 词典 编制 手段 ; 


(5) 英语 词汇 动态 分 析 统 计 程 序 。 


该 系统 于 1988 年 由 中 国 计 算 机 软件 与 技术 服务 总 公司 实现 了 商品 
化 ， 命 名 为 “ 译 星 1 号 ”。“ 译 星 1 号 ”在 商品 化 过 程 中 ， 在 语言 词典 和 规则 
方面 作 了 进一步 的 改善 ， 在 软件 硬件 的 开发 环境 方面 作 了 进一步 的 优 
化 。 这 是 我 国 第 一 个 商品 化 的 机 器 翻译 系统 ， 它 的 出 现 引 起 了 国内 外 
机 恬 翻 译 界 和 计算 语言 学 界 的 瞩目 ， 被 列 为 我 国 1988 年 计算 机 办 十 件 
大 事 之 一 。1991 年 获 国 家 “七 五 ” 攻 天 重大 成 采 奖 。 


近年 来 ,“ 详 星 1 号 ”重新 设计 ， 重 新 编 程 ， 发 展 为 “ 诺 星 -92” 机 天 翻译 
yi 


“ 译 星 -93” 具 有 以 下 特点 : 


(1) 翻译 速度 比 “ 译 星 1 号 ”提高 了 10 倍 。 在 286 微 机 上 ， 每 小 时 可 
译 15 000 词 ， 在 386 微 机 上 ， 每 小 时 可 译 30 000 词 。 


(2) 用 户 界面 美观 、 方 便 、 易 操作 ， 翻 译 与 编辑 熔 为 一 体 ， 采 用 
下 拉 式 菜单 。 


(3) 重新 调整 了 词典 结构 ， 在 不 减少 词典 信息 的 前 提 下 ， 所 占 存 
储 空间 是 “ 译 星 1 号 ?的 三 分 之 一 ， 使 系统 的 空间 开销 大 为 减少 。 


(4) 新 增加 向 用 户 开 放 的 词典 维护 功能 ， 用 户 可 上 自行 追加 生词 。 


(5) 纠正 了 “ 译 星 1 号 "词典 中 发 现 的 错误 ， 增 加 了 惯用 法 ， 修 改 
了 少量 规则 。 


现在 ,“ 译 星 -92”* 有 基本 词典 四 万 余 条 ， 专 业 词典 十 部 ， 分 别 为 : 
计算 机 、 经 济 、 通 讯 、 陶 绽 、 火 力 发 电 、 印 刷机 械 、 汽 车 拖拉 机 、 石 
油 物探 、 地 质 、 化 工 等 共 十 个 领域 。 专 业 词 汇 量 共 35 万 条 。 


与 此 同时 ， 北 京 市 高 立 电脑 公司 与 中 国 社会 科学 院 语言 研究 所 合 
作 ， 开 发 了 “高 立 英汉 机 器 翻译 系统 ” 。 


这 个 机 器 翻译 系统 以 具有 普 衣 意义 的 语言 学 公理 理论 和 原则 作为 
语言 分 析 右 的 理论 基础 ， 以 智能 化 的 机 絮 词 典 代替 传统 的 信息 参数 词 
典 ， 使 句法 规则 与 词 的 个 性 相 结 合 ， 使 词义 与 词 的 参数 和 规则 相 结 
合 ， 整 个 机 需 翻 译 系 统 实质 上 有 走 一 个 词 专家 系统 。 


这 个 机 器 翻译 系统 还 建立 的 背景 知识 库 ， 把 语义 分 析 与 句法 分 析 
有 效 地 结合 起 来 ， 在 抽象 的 形式 分 析 中 ， 充 分 地 利用 语义 信息 。 


由 于 机 需 词 典 与 系统 的 运行 程序 彼此 独立 ， 用 户 可 以 通过 追踪 信 
恩 和 词典 维护 程序 来 修改 机 器 词典 的 内 容 ， 这 样 ， 用 户 就 有 可 能 在 上 自 
己 的 使 用 过 程 中 不 断 地 修改 机 器 词典 ， 不 断 地 提高 机 器 翻译 的 译文 质 


Hm 


该 系统 具有 良好 的 可 扩充 性 和 可 移植 性 ，， 系 统 的 程序 采用 模块 
化 的 方法 来 设计 与 实现 ， 所 有 的 程序 都 用 C 语 言 编写 。 


高 立 英 汉 机 器 翻译 系统 由 翻译 子 系统 、 语 言 知 识 管理 子 系统 、 
援 子 系统 三 个 部 分 组 成 。 


翻译 子 系统 是 高 立 机 右 翻 译 系统 的 核心 ， 它 有 两 方面 的 功能 : 一 
苹 挥 制 整 个 翻译 加 工 的 流程 ， 进 行 过 程控 制 、 加 工 方 同 控制 、 制 导 控 
制 和 追踪 控制 ， 二 有 是 负责 规则 的 识别 、 匹 配 、 推 理 和 运算 。 


语言 知识 管理 子 系统 用 于 管理 机 厅 翻 译 系统 的 语言 知识 库 。 语 言 
知识 库 包 括 一 个 基本 词 库 、 一 个 语法 规则 库 和 一 个 背景 知识 库 。 基 本 
词 库 辐 用 户 开 放 ， 通 过 用 户 界 面 问 用 户 提供 修改 和 增删 词 库 的 手段 。 


文 援 子 系统 是 文 持 系统 运行 和 系统 维护 的 文 返 软 件 ， 这 个 子 系统 
也 可 以 通过 用 户 界 面 癌 用户 提 供 某 些 与 实际 使 用 有 关 的 功能 。 


翻译 子 系统 和 部 分 语言 知识 管理 子 系统 放 在 硬 卡 里 ， 其 余 的 孙 入 
软 亿 c 盘 ， 由 系统 提供 的 用 户 界 面 统一 绾 理 。 


高 立 机 器 翻译 系统 基本 词 库 收 词 60000 条 ， 语 法 规则 库 收 规则 800 
条 ， 背 景 知识 库 收 规则 150 条 ， 译 准 率 达 80% 以 上 ， 翻 译 速 度 每 小 时 
12000 词 以 上 。 


这 个 商品 化 机 器 翻译 系统 的 开发 前 后 共用 了 15 年 时 间 ， 从 试验 性 
的 题 录 翻译 系统 和 全 文 翻译 系统 发 展 到 实用 型 的 全 文 翻译 系统 。 在 人 研 
制 期 间 ， 系 统 的 研制 者 在 理论 和 技术 上 不 断 探索 ， 积 累 经 验 ， 系 统 的 
设计 思想 和 算法 技术 经 历 了 几 次 原则 性 的 调整 和 优化 ; 在 系统 研制 成 
功 之 后 ， 又 经 历 了 两 年 多 的 试验 性 运行 ， 进 行 了 系统 性 能 考核 、 功 能 
考核 、 可 移植 性 考核 和 通用 性 考核 。 在 此 基础 上 ， 才 投入 了 商品 化 的 
开发 ， 于 1992 年 1 月 在 北京 新 技术 产业 开发 试验 区 通过 了 鉴定 ， 先 后 获 
得 北京 市 科技 进步 奖 、 新 加 坡 INFORMATICS'92 国 际 博览 会 计算 机 应 用 
软件 银 奖 和 92 年 第 二 届 中 国 科 技 之 光 博 览 会 电子 行业 金奖 ， 已 被 列 入 
火炬 计划 。 


中 国 科学 院 计算 技 术 研 究 所 开发 了 一 个 智能 型 瑞 汉 机 器 翻译 系统 
863-IMT/EC， 这 个 系统 从 1986 年 开始 研究 ， 经 历 了 理论 探索 (1986 年 
一 1988 年 ) 、 模 型 系统 试验 (1989 年 一 1990 年 ) 和 实用 系统 开发 等 三 
个 阶段 ， 现 已 实现 商品 化 。 该 系统 有 英语 基本 词 35 000 条 ， 汉 语词 25 
000 条 ， 通 用 规则 1 500 条 ， 此 外 ， 还 有 大 量 的 特殊 规则 和 成 语 规则 。 


智能 型 机 瑚 翻译 全 究 的 内 容 ， 包 括 语言 学 工程 、 翻 译 处 理 软件 环 
境 和 知识 处 理 环 境 三 个 部 分 。 


语言 学 工程 研究 如 何 把 语言 学 知识 和 用 于 机 需 翻 译 的 非 语言 学 常 
识 进 行 归 纳 和 形式 化 摘 述 ， 以 适合 于 计算 机 处 理 。 其 中 ， 语 言 学 知识 
包括 机 器 翻译 过 程 中 需要 用 到 的 词法 、 语 法 、 语 义 以 及 语 用 知识 ， 而 
非 语言 学 币 识 包括 机 需 翻 译 过 程 中 毅 音 涉及 的 学 科 分 类 、 青 景 文 化 知 
识 以 及 专业 知识 。 


翻译 处 理 软件 环境 研究 如 何 应 用 形式 化 的 语言 学 知识 和 非 语言 学 
常识 实 现 从 原 语 输 入 到 译 语 输 出 的 转化 ， 这 一 过 程 包括 词法 分 析 算 
法 、 结 构 分 析 算 法 、 上 下 文 相关 处 理 、 译 语 生 成 等 分 析 和 推理 机 制 的 
实现 技术 。 


知识 处 理 环境 研究 如 何 提 供 一 套 有 效 的 软件 工具 环境 ， 帮 助 语言 
学 家 归纳 语言 学 知识 和 位 单 的 非 语言 学 第 识 ， 实 现 这 些 知 识 的 形式 化 
摘 述 ， 并 提供 给 翻译 处 理 软件 使 用 。 


863-IMT/EC 系 统 在 语法 规则 中 引入 了 上 下 文 相关 条 件 测试 ， 实 现 
了 数据 与 操作 一 体 化 处 理 技术 ， 提 出 了 子 类 语法 (Sub Category 


Grammar， 简 称 SC 语 法 ) 


在 机 器 翻译 中 ， 语 义 分 析 是 必 不 可 少 的 ， 以 多 义 分 析 为 例 ， 从 目 
前 已 经 开发 的 系统 来 看 ， 大 约 50% 到 70% 的 多 义 语言 现象 可 以 通过 单纯 
的 句法 分 析 来 解决 ， 而 其 余 30% 的 多 义 语言 现象 必须 通过 语义 分 析 甚 至 
语 用 分 析 才 能 解决 ， 因 此 ，SC 语 法 把 句法 分 析 和 语义 分 析 结合 起 来 ， 
实现 了 句法 和 语义 的 一 体 化 。 


为 了 能 够 上 下 文 相关 条 件 测试 ，SC 语 法 在 规则 中 峙 入 测试 函数 ， 
把 上 下 文 相 关 处 理 局 部 化 。 测 试 函 数 的 形式 为 


Search (L/R, Ran, Comp.) 
和 
Nsearch (L/R. Ran, Comp.) 


其 中 ，Search 表 示 查 找 相应 成 分 或 者 归 约 的 操作 ，L/R 分 别 表示 癌 左 或 
向 右 搜 索 ，Ran 表 示范 围 ，Comp 表 示 需 要 查找 的 成 分 特征 ，Nsearch 是 
Search 的 人 否定。 


许多 基于 规则 的 原 语 分 析 扩 术 ， 分 析 与 转换 的 界限 是 通过 形成 的 
内 部 树 形 图 来 传递 信息 的 ， 而 译 语 的 生成 部 分 需要 反复 对 树 形 图 中 的 
结 点 进行 测试 ， 找 出 相应 的 生成 码 ， 才 能 生成 译文 。 这 不 仅 浪 费时 
间 ， 而 且 ， 由 于 生成 码 的 内 容 和 数量 均 不 容易 确定 ， 往 往 丢 失 许 多 信 
已， 使 得 所 生成 的 译文 的 可 读 性 降低 。SC 语 法 通过 采用 分 析 与 转换 规 
则 共用 同一 个 头 部 和 同一 个 测试 函数 的 方式 ， 实 现 了 分 析 与 转换 的 集 
成 化 ， 简 化 了 分 析 与 转换 的 操作 过 程 ， 提 高 了 译文 的 可 读 性 。 


在 机 器 词典 的 编写 方面 ， 该 系统 对 词 条 进行 局 部 化 处 理 ， 把 与 具 
体 单 词 有 关 的 一 切 信息 都 存放 在 同一 词 条 下 ， 采 用 单一 的 规范 结构 来 


表示 。 词 条 中 的 信息 ， 除 了 词法 信息 、 句 法 信息 、 语 义 信 息 、 上 下 文 
相关 信息 之 外 ， 还 包括 与 该 词 有 关 的 成 语 及 固定 结构 等 ， 不 单独 另 立 
成 语词 典 来 处 理 成 语 。 


在 翻译 处 理 机 制 方面 ， 该 系统 采用 可 控 层 次 相 容 合 一 机 制 、 上 下 
文 相关 处 理 机 制 、 转 换 生 成 机 制 、 局 发 式 回 调控 制 机 制 、 基 于 不 完备 
知识 的 推理 机 制 、 译 文 质量 多 档 可 调 机 制 等 。 这 些 机 制 都 是 模块 化 
的 ， 每 一 模块 都 按 规则 的 形式 进行 操作 人 处理， 把 规则 的 特征 作为 程序 
的 调用 数据 参数 ， 使 软件 独立 于 具体 的 文 种 ， 为 进行 多 文 种 的 机 器 翻 


译 创造 了 条 件 。 


在 知识 处 理 环 境 方面 ， 对 知识 库 采 用 面向 对 象 的 方式 ， 分 为 多 个 
包 来 存储 不 同 的 规则 和 词 条 。 规 则 按 学 科 分 包 ， 同 一 学 科 内 又 按 语言 
现象 的 不 同 分 为 更 小 的 包 。 词 典 可 按 学 科 分 包 ， 又 可 按 频 度 分 包 。 所 
有 这 些 包 除 了 一 些 局 部 的 维护 和 格式 转化 操作 之 外 ， 都 共享 存 取 操 
作 、 知 识 重 组 操作 和 规则 精炼 操作 。 为 了 保证 规则 的 质量 ， 要 检查 规 
则 的 相 容 性 、 包 含 性 、 互 不 性 ， 从 而 使 规则 不 断 地 得 到 优化 。 


863-IMT/EC 机 器 翻译 系统 现 已 商品 化 。 中 国 科学 院 计算 技术 人 研究 
所 与 香港 权 智 集团 合作 ， 投 资 1 800 万 美元 ， 建 立 了 科 智 语言 信息 处 理 
有 限 公司 ， 后 来 又 进一步 发 展 成 华 建 公 司 ， 专 门 从 事 机 需 翻 译 系统 的 
开发 ， 成 为 我 国 机 右 翻 译 的 重要 产业 。 


国防 科技 大 学 于 1994 年 研制 成 英汉 机 器 翻译 系统 Matrix 也 开始 商品 
化 。 该 系统 翻译 速度 在 IBM PC386-DX33 计 算 机 上 ， 每 分 钟 能 翻译 5 
000—10 000 个 丑 语 单词 ， 比 国内 外 大 多 数 机 右 翻 译 系统 的 速度 高 出 1 一 
2 个 数量 级 。 按 照 日 本 电气 工业 促进 协会 JIEDA 发 布 的 天 于 1992 年 国际 


目 然 语言 处 理 现状 的 报告 中 提出 的 标准 ，Matrix 系 统 的 翻译 速度 是 当今 
世界 上 最 快 的 。 


Matrix 系 统 的 词典 可 根据 用 户 的 需要 自行 删改 ， 并 可 独立 于 Matrix 
系统 单独 使 用 ， 还 可 以 配 上 不 同 的 专业 词典 ， 满 足 不 同 专业 的 需要 。 


Matrix 系 统 还 根据 市 场 的 需求 ， 转 化 为 下 列 产 品 : 


一 一 电子 词典 : 由 于 Matrix 系 统 的 词典 是 独立 于 系统 的 ， 因 此 可 以 
转化 为 电子 词典 在 市 场 上 流通 。 


微机 扩展 卡 : 可 以 把 Matrix 系 统 做 成 像 汉 卡 一 样 的 扩展 卡 ， 配 
在 286 以 上 的 微机 上 ， 使 每 台 微机 都 具有 英汉 机 右 翻 译 能 力 ， 由 于 家 用 
微机 的 逐渐 普及 ， 机 器 翻译 系统 有 可 能 走 入 和 干 家 万 户 。 


不 同 用 途 的 机 器 翻译 系统 ， 配 以 不 同 的 机 絮 词 典 ， 可 制 成 通 
用 和 专用 的 机 器 翻译 系统 。 通 用 机 器 翻译 系统 可 为 新 闻 、 信 息 部 门 提 
供 快速 翻译 服务 ， 专 用 机 器 翻译 系统 可 成 为 翻译 工作 者 的 得 力 助手 。 


此 外 ， 中 国 社会 科学 院 语 言 研 究 所 与 北 未 文献 服务 处 合作 人 研制 
的 “天 语 ” 英 汉 机 此 翻 详 系 统 、 中 国 国防 科技 信息 中 心 的 “ 金 译 达 ”英汉 机 
堪 翻 译 系统 ， 也 正在 内 实用 化 、 商 品 化 的 方 癌 迈进 。 


在 汉 外 机 器 翻译 方面 ， 中 国 计 算 机 软件 与 技术 服务 总 公司 开发 了 
商品 化 的 汉 外 机 器 翻译 系统 Sino Trans， 该 系统 于 1993 年 9 月 通过 了 电子 
工业 部 的 部 级 鉴定 。 


Sino Trans 是 该 公司 独 目 投资 用 五 年 时 间 开 发 而 成 的 ， 包 括 汉 贡 和 
汉 日 两 个 商品 化 的 机 融 翻 译 系统 。 


Sino Trans 是 国内 外 第 一 个 能 翻译 汉语 技术 报告 、 论 文 、 报 刊 文 
章 、 产 品 说 明 书 等 文字 资料 的 机 器 翻译 系统 。 其 中 汉 英 系统 的 三 个 用 
尸 已 翻译 了 数 十 万 子 的 科技 资料 ， 市 省 了 50% 的 工作 量 。 


Sino Trans 也 是 一 个 多 功能 的 中 文 信息 处 理 系 统 ， 具 备 汉语 目 动 切 
词 ， 当 前 词 的 词性 自动 确定 、 词 组 生成 、 汉 语 语法 树 生 成 、 汉 语 外 语 
转换 及 外 语 生成 等 功能 。 由 于 其 中 的 每 一 个 模块 都 可 以 单独 使 用 ， 所 
以 ，Sino Trans 还 能 为 目 然 语言 理解 研究 、 基 于 语词 的 语言 学 研究 提供 
条 件 ， 为 汉语 教学 提供 帮助 。 


Sino Trans 根 据 我 国 半 名 语言 学 家 黎 锦 昭和 完 生 的 句 本 位 学 说 ， 拓 出 
了 汉语 完全 语法 树 (I-Tree) 来 统一 表达 所 有 可 能 出 现 的 汉语 陈述 句 
型 ,并 建立 了 属性 制约 原则 和 属性 制约 文法 ， 因 此 ， 人 研究 者 殊 有 可 能 
进一步 通 副 地 来 全 究 汉语 的 句法 ， 不 必 再 像 传 统 的 汉语 语法 研究 那样 
只 局 限于 使 用 枚 举例 句 的 方法 来 概括 语言 规律 。 完 全 语法 树 还 清楚 地 
表示 了 句子 的 自动 分 析 和 生成 过 程 ， 明 确 在 句子 内 可 以 递归 的 部 分 和 
递归 的 内 容 ， 为 在 理论 上 深入 研究 汉语 理解 的 实际 过 程 捉 供 了 线索 。 


汉 莫 机 器 翻译 系统 的 规则 库 现 有 基本 语法 规则 1 000 余 条 ， 转 换 规 
则 200 余 条 ， 基 本 词典 40 000 条 ， 专 业 词 典 两 部 : 一 部 是 舰艇 专业 词 
典 ， 有 9 312 条 ， 一 部 是 火箭 炮 专 业 词 典 ， 有 33 773 条 ， 系 统 具 有 和 良好 
的 用 户 界 面 ， 可 文 持 任何 编辑 软件 ， 进 行 译 前 、 译 后 编辑 ， 系 统 还 具 
有 开放 性 ， 用 户 可 根据 自己 的 实际 需要 ， 自 行 添加 生词 的 技术 指标 。 
翻译 速度 每 小 时 20 000 汉 字 。 


汉 日 机 器 翻译 子 系统 现 有 基本 词典 4 000 条 ， 动 词 辞 典 2 000 条 ， 计 
算 机 专业 词典 22 000 条 ， 还 有 待 于 进一步 完善 。 


此 外 ， 哈 尔 闯 工业 大 学 计算 机 系 的 汉 英 机 器 翻译 系统 CEMT， 东 北 
工学 院 计 算 机 科学 与 工程 系 的 汉 英 机 融 翻 译 系统 CETRANS 也 正在 同 实 
用 化 的 方向 努力 。 


近年 来 ， 随 着 计算 机 技术 的 进步 ， 已 经 将 机 器 翻译 系统 制 成 袖珍 
的 翻译 机 。 例 如 ， 由 香港 权 智 有 限 公 司 推出 的 人 工 智能 全 名 英汉 袖珍 
翻译 机 “ 快 译 通 ”EC863B ， 由 香港 伟 易 达 电 脑 国际 有 限 公 司 推出 的 全 句 
英汉 翻译 袖珍 翻译 机 “ 易 达 通 ”， 都 突破 了 单词 解释 和 例句 预 设 的 限 
制 ， 能 够 进行 整 句 的 翻译 ， 把 自选 的 英文 句子 和 短语 翻译 成 参考 性 极 
高 的 中 文句 子 和 短语 。 这 样 的 袖珍 翻译 机 ， 与 袖珍 电子 词典 一 般 大 
小 ， 造 型 优美 ， 小 巧 多 姿 ， 如 快 译 通 EC863B， 连 电池 在 内 重量 才 230 
克 ， 携 带 十 分 方便 。 这 是 机 器 翻译 系统 商品 化 的 可 喜 收 获 。 


从 实用 化 商品 化 的 角度 来 看 ， 机 器 翻译 确实 有 了 相当 的 进步 ， 研 
完 痢 们 对 语法 和 词典 都 下 了 不 少 工 夫 ， 研 究 的 规模 也 扩充 了 ， 因 而 翻 
译 时 未 登录 的 词 减少 了 ， 句 子 分 析 的 成 功率 也 提高 了 ， 多 义 词 选 择 的 
准确 性 和 上 政 义 判别 的 能 力也 都 进一步 得 到 了 改进 。 但 是 ， 对 于 一 些 复 
杂 的 句子 的 分 析 依然 很 困难 ， 往 往 遭 致 失败 ， 多 义 词 和 此 义 问 题 沿 未 
找到 切实 有 效 的 解决 办 法 ， 有 时 免不了 要 进行 人 工 干 预 。 不 过 ， 从 总 
体 上 看 来 ， 由 于 机 器 翻译 的 速度 比 单纯 的 人 工 翻译 快 得 多 ， 在 讲求 效 
率 的 信息 化 时 代 ， 机 天 翻译 的 市 场 潜力 仍然 征 很 大 的 。 例 如 ， 权 智 集 
团 “ 快 译 通 ” 商 标的 公平 市 场 价值 ， 经 美国 评估 公司 评估 为 一 亿 三 和 干 万 
港元 。 这 样 大 的 市 场 潜 力 对 于 机 器 翻译 系统 的 进一步 开发 ， 有 着 相当 
大 的 吸引 力 。 


基于 规则 的 机 器 翻译 系统 面 对 的 主要 问题 是 天 于 目 然 语言 中 词汇 
和 结构 的 上 玻 义 问 题 ， 这 种 卜 义 既 存 在 于 一 种 语言 的 内 部 ( 单 语 歧 
X) ， 也 存在 于 不 同 的 语言 之 间 (双语 歧义 ) 。 


在 机 右 翻 译 中 ， 任 何 持 语 上 收 义 都 可 能 上 暗含 这 潍 在 的 困难 ， 对 于 源 
语言 中 一 个 有 上 蚊 义 的 单词 ， 在 目标 语言 中 ， 也 许可 能 存在 一 个 以 上 的 
翻译 等 价 物 。 例 如 ， 英 语 的 cry 对 应 于 法 语 的 pleurer (2€) 或 crier (HH 
喊 ) ; 法 语 的 voler 对 应 于 英语 的 fty ( 飞 ) 或 steal (fi) 


在 机 圳 翻译 中 ， 同 样 须 要 解决 兼 类 词 问题 。 所 谓 兼 类 词 也 束 是 词 
类 的 歧义 ， 人 例如， 英语 light 可 为 名 词 、 形 容 词 或 动词 ， 翻 译 时 需要 在 法 
i&lumiere 〈“ 光 线 ”， 名 词 ) ，clair 〈“ 亮 ”， 形 容 词 ) 或 alumer (“FR 
亮 ”， 动 词 ) 等 不 同 的 词类 之 间 进 行 选择 ; 英语 的 face 可 为 名 词 和 动 
词 ， 翻 译 时 需要 在 法 语 的 visage 〈“ 脸 ”， 名 词 ) 或 confronter WX”, 
动词 ) 之 间 进 行 选 择 。 


如 果 一 个 词 或 短语 能 够 潜在 地 修饰 一 个 以 上 的 句法 成 分 ， 束 会 出 
现 单 语 的 结构 上 收 义 ， 在 机 器 翻译 翻译 中 ， 可 以 分 别 翻译 为 两 中 不 同 的 
结构 。 在 英语 的 “old men and women” 中 ， 形 容 词 old 可 以 只 修饰 men， 
也 可 以 修饰 men and women， 翻 译 为 法 语 时 ， 束 可 以 分 别 翻译 为 vieux et 
femmes (老年 的 男人 和 女人 ) 或 vieux et vieilles (老年 的 男人 和 老年 的 
女人 ) 两 种 不 同 的 结构 。 


在 英语 中 ， 介 词 短语 能 够 修饰 几乎 所 有 在 它 前 面 的 动词 和 名 词 短 
语 ， 例 如 : 


The car was driven by the teacher at high speed. 


就 存在 结构 上 收 义 ， 它 有 两 个 意思 : 一 个 意思 是 “老师 飞速 地 开 着 
车 ”(at high speed 修 饰 动词 was driven) ， 男 一 个 意思 是 “高 速度 的 老师 
开 着 车 ” (at high speed 修 饰 名 词 teacher) 


兼 类 词 收 义 和 结 构 歧 义 经 党 是 一 起 发 生 的 。 例 如 ， 瑞 语句 和 于 “He 
saw her shaking hands” 中 ，shaking 可 以 是 形容 词 (句子 的 意思 是 “他 看 
见 她 的 颤抖 的 手 2) ， 也 可 以 是 动 名 词 的 动词 (句子 的 意思 是 “他 看 见 
Ha”) ， 兼 类 词 shaking 在 结构 上 可 以 分 别 做 定语 (意思 为 “ 颤 
THN") 或 动 名 词 短 语 中 的 谓语 BRASS”) ， 兼 类 词 收 义 的 同 
时 还 带 有 结构 歧义 。 


双语 歧义 是 源 语 言 和 目标 语言 之 则 彼此 对 应 时 出 现 的 歧义 ， 这 种 
歧义 主要 发 生 在 某 个 意义 在 目标 语言 中 没有 区 分 而 在 源 语言 有 区 分 的 
时 候 。 例 如 ， 在 英语 中 ，river (河流 ) 没有 进一步 的 区 分 ， 而 在 法 语 
中 则 进一步 区 分 为 riviere ( 河 ) 或 fleuve (2D) ， 在 德语 中 进一步 区 分 
为 Fluss (河流 ) 或 Strom QU) ; 在 英语 中 ，eat (WZ) 没有 进一步 区 
分 ， 而 在 德语 中 则 进一步 区 分 为 essen ( [A] 吃 ) 或 fressen ( | BH 
| Hz) ; 在 英语 中 ，wall GER) 没有 进一步 区 分 ， 而 在 法 语 中 则 进 一 
步 区 分 为 mur (5) 或 paroi 〈 隔 墙 ) ， 在 德语 中 则 进一步 区 分 为 Wand 

GĦ) , Mauer (围墙 ， 或 Wall (EJ) ; 在 英语 中 ，blue ( 蓝 色 的 ) 
没有 进一步 区 分 ， 在 俄语 中 ， 则 进一步 区 分 为 cmaa 首 〈 深 监 色 的 ) 或 
ronyBoi ( 浅 蓝 色 的 ) 


有 了 时， 这 种 双语 歧义 使 得 词义 之 间 对 应 关系 变 得 非常 之 复杂 。 图 
11.2 描 述 了 英语 中 的 单词 leg (AR) , foot (Œ) , paw UTC) 与 法 语 
中 的 单词 jambe (HR) , pied 〈 脚 ) ，patte JNF) , etape (宿营 地 ) 
之 间 的 交叉 对 应 天 系 。 


ANIMAL W 
etape patte 
BIRD 


JOURNEY ANIMAL 


leg foot 
Human CHAIR — HUMAN 
jambe pied 


图 11.2 ”英语 单词 与 法 语 单词 之 间 复 杂 的 对 应 关系 


例如 ， 法 语 的 pied 可 以 用 于 指 人 (HUMAN) 的 “ 脚 ”， 这 时 ， 它 与 
英语 的 foot 相 对 应 ; 法 语 的 pied 也 可 以 用 于 指 椅子 (CHAIR) 的 “ 脚 ”， 
这 时 ， 它 与 英语 的 leg 相 对 应 ; 而 英语 的 foot 还 可 以 指 鸟 (BIRD) KSN 
子 ”， 这 时 ， 它 与 法 语 的 patte 相 对 应 。 英 语 的 leg 泗 义 复 杂 ， 它 除了 与 法 
语 的 pied 对 应 之 外 ， 还 可 以 指 动物 (ANIAML) 的 “ 脚 *"， 这 时 ， 它 和 
foot 一 起 ， 又 与 法 语 的 patte 相 对 应 ; 英语 的 leg 还 可 以 指 人 类 
(HUMAN) 的 “ 腿 ”， 这 时 ， 它 与 法 语 的 jambe 相 对 应 ; 此外， 英语 的 
leg 还 可 以 指 旅行 (JOURNEY) 中 的 一 段 * 旅 程 ”， 这 时 ， 它 与 法 语 的 
etape 相 对 应 。 英 语 和 法 语 的 泗 义 之 间 形 成 的 交叉 对 应 关系 是 非常 复 灯 
的 。 这 是 在 词汇 方面 的 双语 歧义 现象 。 


由 于 存在 这 种 极为 复 洒 的 双语 收 义 现象 ， 在 机 器 翻译 中 ， 单 词 的 
翻译 就 会 出 现 一 对 多 的 情况 ， 需 要 进行 排 玻 。 


有 了 时， 在 双语 词汇 对 应 时 ， 甚 至 在 其 中 的 一 种 语言 中 ， 还 会 出 现 
词汇 对 应 不 上 的 现象 ， 叫 做 词汇 间隙 (lexical gap) 现象 ， 例 如 ， 汉 语 
的 “地 ”*”， 在 英语 中 吏 没 有 完全 等 价 的 单词 与 之 对 应 ， 可 以 勉强 翻译 
J “show filial obedience" ° 英语 的 “privacy” (state of being alone or 
undisturbed) 在 汉语 中 也 没有 完全 与 之 等 价 的 单词 与 之 对 应 ， 可 以 勉强 
翻译 为 “独处 或 不 受 干 扰 的 状态 ”。 由 于 难以 找到 完全 等 价 的 单词 ， 机 


如 在 处 理 词汇 间 际 问题 时 ， 往 往 会 陷入 举 棋 不 定 的 困境 ， 会 给 机 和 右 翻 
译 造 成 很 大 的 困难 。 


在 机 器 翻译 中 ， 双 语 结构 的 不 同 可 以 进行 一 般 性 的 处 理 。 例 如 ， 
在 英语 中 形容 词 处 于 名 词 之 前 ， 但 法 语 中 很 多 的 形容 词 则 处 于 名 词 ， 
在 机 右 翻 详 时 ， 我 们 只 要 写 出 转换 的 规则 残 行 了 。 


但 是 ， 有 时 这 种 不 同 需要 在 特殊 的 结构 中 进行 具体 的 分 析 ， 例 
如 ， 翻 译 英 语 动词 like (she likes to play tennis) 为 德语 副词 gern (sie 
spielt gern Tennis) ， 只 有 在 这 一 类 特定 的 句 型 中 才 可 以 进行 。 有 时 ， 
这 种 不 同 可 以 通过 特殊 的 词汇 选择 来 决定 ， 例 如 ， 现 语 简单 动词 trust， 


翻译 为 法 语 是 一 个 复杂 的 短语 (avoir confiance a) ° 


两 种 语言 词汇 选择 的 不 同 往往 伴随 着 结构 上 的 差异 。 例 如 ， 在 法 
语 和 德语 的 翻译 中 ， 如 果 法 语 使 用 connaitre (相应 的 德语 词 为 
kennen) ， 那 么 往往 选择 名 词 短语 做 宾语 的 结构 ， 人 例如， 法 语 *je 
connais l'homme” (我 认识 这 个 人 ) ， 德 语 为 ich kenne den Mann”; 如 
果 法 语 使 用 savoir (相应 的 德语 词尾 wissen) ， 那 么 ， 往 往 选择 从 名 做 
宾语 的 结构 ， 例如， 法 语 “je sais ce qu'il s'appelle” (我 知道 他 叫 什 
^) ， 德 语 为 ich weiss wie er heisst， 这 时 ， 法 语 要 使 用 ce que (在 这 个 
句子 中 是 ce qu). 引入 宾语 从 句 i s'appelle， 德 语 要 使 用 wie 引 入 宾语 从 
“Jer heisst ° 


有 时 需要 使 用 非 语言 的 常识 性 知识 来 进行 监 义 消解 。 例 如 ， 代 词 
的 先行 语 的 判断 就 往往 需要 关于 事件 和 情景 的 非 语言 知识 。 


在 “The soldiers killed the women, they were buried next day”( 士 兵 
ART 3TH, WHA BET) 这 个 句子 中 ， 代 词 “they” 一 定 不 
是 指 “ 士 兵 ” 而 是 指 “ 妇 女 *"， 因 为 我 们 知道 “killing” 上 暗示 着 “death”， 


而 “death” 通 党 伴随 着 “burial”， 所 以 ， 我 们 可 以 判断 ，were buried 的 主 
语 应 当 是 被 killed 的 women， 而 不 是 soldiers ° 


这 样 的 判断 叫做 “ 回 指 消解 ” (anaphora resolution) 。 回 指 消解 对 机 

维 翻 译 非 闻 重 要 。 在 有 标记 了 代词 的 性 的 语言 翻译 中 ， 在 具有 和 零 形 回 

晶 结构 的 语言 中 ， 机 需 翻 译 时 需要 在 目标 语言 中 插入 代词 ， 回 指 消解 
忠 显 得 尤其 重要 。 


更 大 的 困难 存在 于 ， 机 器 翻译 系统 仅 限于 把 句子 作为 翻译 的 单 
位 ， 而 回 指 现象 则 经 常 超越 出 句子 的 范围 。 尤 其 是 在 机 器 翻译 系统 翻 
译 对 话 文本 时 ， 这 个 问题 更 加 突出 ， 因 为 对 话 中 经 稍 使 用 回 指 。 改 
外 ， 回 指 消 解 本 身 束 是 很 复杂 的 过 程 ， 当 机 融 翻 译 过 程 中 出 现 对 话 ， 
源 语言 (说 话 者 或 作者 ) 使 用 了 回 指 ， 这 时 ， 这 样 的 回 指 不 只 是 听 者 

( 译 者 或 翻译 系统 ) 需要 进行 识别 ， 而 且 在 语言 编码 中 还 要 进行 指称 
的 表达 。 例 如 ，elle 在 法 语 中 指 代 阴 性 语法 词 ， 翻 详 为 英语 时 ， 在 下 面 
的 例句 中 ， 应 翻译 为 tf， 而 不 是 she ^ 


法 语 : L'eau est claire mais elle est froide. 〈 水 虽 清 澈 ， 但 是 很 
Uf o) 
英语 : The water is clear but it (*she) is cold. 
在 下 面 的 例子 (a) 中 ， 如 果 知 道 是 录像 机 (recorder) 中 的 录像 市 
(video tape) 需要 倒 带 ， 很 容易 地 就 可 以 确定 ， 其 中 的 代词 it 指 代 的 先 
行 词 是 录像 带 (video tape) 。 而 在 例子 (b) 中 ，it 就 指 代 的 是 录像 机 


(recorder) 。 


a. Insert the video tape into the recorder, rewinding it if necessary. (把 隶 


像 带 插 到 录像 机 中 ， 必 要 时 倒 带 。) 


b. Insert the video tape into the recorder, after making sure that it is turned 
on. (在 确认 录像 机 是 否 已 经 打开 之 后 ， 把 录像 带 手 到 录像 机 
中 。) 


有 时 代词 的 指 代 是 隐藏 在 文本 中 的 ， 我 们 需要 先 了 解 洪 在 的 语 
境 ， 才 有 可 能 确定 这 样 的 指 代 。 例 如 ， 在 下 面 的 句子 中 ，it 指 代 的 是 这 
个 句子 中 没有 所 到 的 食品 ， 而 不 是 前 面 提 到 的 任何 事物 。 


We went to a restaurant last night. It was delicious. (了 昨 晚 我 们 去 


一 个 饭店 ， 食 品 的 味道 鲜美 。) 


为 了 翻译 这 样 的 句子 ， 正 确 地 处 理 句 子 中 it 的 指 代 关系 ， 机 器 翻译 
需要 知道 “在 饭店 中 一 定 存在 着 食品 ”这 样 的 非 语言 学 的 常识 。 


这 些 事实 说 明 ， 我 们 不 仅 应 该 丰富 机 瑚 翻译 系统 的 语言 学 知识 ， 
而 且 应 该 为 机 器 翻译 系统 提供 更 多 的 非 语 言 学 的 第 识 。 所 以 ， 在 基于 
规则 的 机 瑚 翻译 系统 中 ， 规 则 不 仅 包括 语言 学 规则 ， 而 且 还 包括 非 语 
言 学 的 规则 o 


在 基于 规则 的 机 需 翻 译 中 ， 这 些 复杂 的 问题 正在 逐步 地 得 到 解 
决 ， 取 得 了 令 人 鼓舞 的 成 绩 ， 一 些 基于 规则 的 机 器 翻译 系统 已 经 实用 
EI 
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除了 基于 规则 的 机 器 翻译 之 外 ， 目 前 更 多 的 机 器 翻译 系统 采用 了 
基于 语料库 的 方法 


基于 语料库 的 机 器 翻译 方法 有 可 以 进一步 分 为 两 种 ， 一 种 是 基于 
统计 的 机 器 翻译 方法 ， 一 种 是 基于 实例 的 机 器 翻译 方法 。 这 两 种 方法 
都 使 用 语料库 作为 翻译 知识 的 来 源 ， 所 以 可 以 统称 为 基于 语料库 的 机 
器 翻译 方法 。 


这 两 种 方法 的 区 别 在 于 : 


e 在 基于 统计 的 机 右 翻 详 方法 中 ， 知 识 的 表示 是 统计 数据 ， 而 不 是 
语料库 本 映 ;， 翻译 知识 的 获取 是 在 翻译 之 前 完成 ， 在 翻译 的 过 程 中 一 
般 不 再 使 用 语料库 。 


e 在 基于 实例 的 机 需 翻 译 方法 中 ， 双 语 语料库 本 吴 束 是 翻译 知识 的 
一 种 表现 形式 (不 一 定 是 唯一 的 ) ， 翻 译 知识 的 获取 在 翻译 之 前 没有 
全 部 完成 ， 在 翻译 的 过 程 中 还 要 查询 并 利用 语料库 。 


1993 年 7 月 在 日 本 神户 召开 的 第 四 届 机 器 翻译 高 层 会 议 (MT 
Summit IV) 上， 英国 著名 学 者 哈 钦 斯 (J. Hutchins) 在 他 的 特约 报告 
中 指出 ， 目 1989 年 以 来 ， 机 器 翻译 的 发 展 进 入 了 一 个 新 纪元 。 这 个 新 
纪元 的 重要 标志 是 ， 在 基于 规则 的 技术 中 引入 了 语料库 方法 ， 其 中 包 
括 统计 方法 ， 基 于 实例 的 方法 ， 通 过 语 料 加 工 手 段 使 语料库 转化 为 语 
言 知 识 库 的 方法 ， 等 等 。 这 种 建立 在 大 规模 真实 文本 人 处理 基础 上 的 机 
硬 翻 译 ， 是 机 器 翻译 研究 史上 的 一 场 章 命 ， 它 将 会 把 日 然 语 言 的 计算 
机 处 理 推 向 一 个 新 新 的 阶段 。 


现在 我 们 已 经 进入 21 世 纪 ， 语 料 库 方 法 已 经 渗透 到 了 机 天 翻 诺 癸 
完 的 各 个 方面 ， 一 些 基 于 语料库 的 机 右 翻 译 系统 如 雨后春笋 般 地 建立 
起 来 ， 有 的 系统 把 基于 语料库 的 方法 和 基于 规则 的 方法 巧妙 地 结合 起 
B, BUT UD EBJE o 


2000 年 ， 在 约翰 . 霍 普 金 斯 大 学 (Johns Hopkins University) 的 暑假 
机 器 翻译 讨论 坦 (Workshop) 上 ， 来 自 南 加 州 大 学 、 罗 切 斯 特大 学 、 
约翰 . 霍 普 金 斯 大 学 、 施 乐 人 公司、 宾夕法尼亚 州 大 学 、 斯 坦 福 大 学 等 学 
校 的 研究 人 员 ， 对 于 基于 统计 的 机 妖 翻 译 进行 了 讨论 ， 以 年 轻 的 博士 
Duc HW (Franz Josef Och) 为 主 的 13 位 科学 家 写 了 一 个 总 结 报告 
(Final Report) ， 报 告 的 题目 是 《统计 机 器 翻译 的 句法 》 (“Syntax for 
Statistical Machine Translation”) ， 这 个 报告 提出 了 把 基于 规则 的 机 器 
翻译 方法 和 基于 统计 的 机 器 翻译 方法 结合 起 来 的 有 效 途 径 。 


奥 赫 在 国际 计算 语言 学 2002 年 的 会 议 (ACL2002) 上 发 表 论文 ， 
题目 是: 《统计 机 器 翻译 的 分 辨 训练 与 最 大 炉 模 型 》 (Discriminative 
Training and Maximum Entropy Models for Statistical Machine Translation 
) ,进一步 提出 统计 机 器 翻译 的 系统 性 方法 ， 他 的 这 篇 论文 获 ACL2002 


会 最 佳 论文 奖 。 
目前 ， 统 计 机 占 翻 译 已 经 成 为 机 莫 翻 详 研 究 的 主流 。 
根据 Google 的 调查 ， 统 计 机 颖 翻译 论文 发 表 的 情况 如 图 11.3 所 示 : 
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图 11.3 ”统计 机 器 翻译 论文 增长 情况 


可 以 看 出 ， 统 计 机 器 翻译 的 论文 是 成 线性 增长 的 ， 其 增长 速度 越 


根据 美国 NIST (National Institute of Standardization & Technology) 
组 织 的 统计 机 器 翻译 评测 ， 美 国 研 制 的 汉语 -英语 机 器 翻译 系统 和 阿拉 


伯 语 -英语 机 器 翻译 系统 的 BLEU 指 标量 如 下 : 


0.6 
0.5 


汉语 一 英语 阿拉 1 日 语 一 英语 
图 11.4 统计 机 器 翻译 系统 的 BLEU 指 标 逐 年 提高 


HE 


可 以 看 出 ， 这 些 统计 机 器 翻译 系统 的 翻译 质量 正在 逐年 提高 


o 


统计 机 瑚 翻译 的 质量 与 语言 模型 的 规模 有 密切 关系 。 机 瑚 翻译 的 


研究 者 们 兴 理 地 发 现 ， 随 春 语 言 模 型 训练 数据 的 增 大 ， 机 需 翻 译 的 译 


文 质量 相应 提高 站 。 如 下 页 的 图 11.5 所 示 。 


Impact on size of language model training data (in words) on quality of 
Arabic-English statistical machine translation system 
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11.5 ”英语 一 阿拉 伯 语 机 器 翻译 系统 的 质量 随 着 语言 模型 训练 数据 的 增 大 而 提高 


2003 年 7 月 ， 在 美国 马里 兰州 巴尔 的 摩 (Baltimore, Maryland) 由 
美国 商业 部 国家 标准 与 技术 人 研究 所 NIST/TIDES (National Institute of 
Standards and Technology) 主持 的 评比 中 ， 奥 赫 获 最 好 成 绩 ， 他 使 用 统 
计 方 法 ， 在 很 短 的 时 间 之 内 束 构 造 了 阿拉 伯 语 和 汉语 到 刺 语 的 看 干 个 
机 器 翻译 系统 。 伟 大 的 希腊 科学 家 阿 基 米 德 (Archimedes) 说 过 : “只 
要 给 我 一 个 文 点 ， 我 就 可 以 移动 地 球 。” (“Give mea place to stand on, 
and I will move the world.") 而 现在 奥 赫 也 模仿 着 阿 基 米 德 说 : “只 要 给 
我 充分 的 并 行 语言 数据 ， 那 么 ， 对 于 任何 的 两 种 语言 ， 我 束 可 以 在 几 
小 时 之 内 给 你 构造 出 一 个 机 器 翻译 系统 。” (“Give me enough parallel 
data, and you can have translation system for any two languages in a matter 
of hours.") 这 反映 了 新 一 代 的 机 器 翻译 研究 者 朝气 甘 勃 的 探索 精神 和 
继往开来 的 育 情 壮志 。 看 来 ， 奥 赫 似 乎 已 经 找到 了 机 名 翻译 的 有 效 方 
法 ， 至 少 按 照 他 的 路 子 走 下 去 ， 也 许 有 可 能 开创 出 机 絮 翻 译 人 研究 的 一 
请 新天地， 使 我 们 在 探索 真理 的 曲折 道路 上 看 到 了 粮 眼 的 明光。 过 去 
我 们 研制 一 个 机 器 翻译 系统 往往 需要 儿 年 的 时 间 ， 而 现在 采用 奥 赫 的 


方法 构造 机 器 翻译 系统 只 要 几 个 小 时 就 可 以 了 ， 研 制 机 器 翻译 系统 的 
速度 已 经 大 大 地 提高 


早 在 1947 年 ， 韦 弗 在 他 的 以 《翻译 》 为 题 的 备 环 未 中 ， 束 提出 了 
使 用 解读 密码 的 方法 来 进行 机 器 翻译 ， 这 种 所 谓 “ 解 读 密 码 ” 的 方法 实 
质 上 束 古 一 种 统计 的 方法 ， 他 是 想 用 基于 统计 的 方法 来 解决 机 右 翻 译 


问题 。 


但 是 ， 由 于 当时 尚 缺 乏 高 性 能 的 计算 机 和 联机 语 料 (corpus on 
line) ， 采 用 基于 统计 的 机 器 翻译 在 技术 上 还 不 成 熟 。 韦 弗 的 这 种 方法 
是 难以 付 诸 实现 的 。 现 在 ， 这 种 局 面 已 经 大 大 改变 了 ， 计 算 机 在 速度 
和 容量 上 都 有 了 大 幅度 的 提高 ， 也 有 了 大 量 的 联机 语 料 可 供 统计 使 
用 ， 因 此 ， 在 20 世 纪 90 年 代 ， 基 于 统计 的 机 器 翻译 又 兴盛 起 来 。 


在 韦 弗 思想 的 基础 上 ，IBM 公 司 的 布 劳 恩 (PF. Brown) 等 人 提出 
了 统计 机 器 翻译 的 数学 模型 。 


基于 统计 的 机 器 翻译 把 机 器 翻译 问题 看 成 是 一 个 噪声 信道 问题 ， 
如 图 11.6 所 示 : 


翻译 ( 解码 ) 


目标 语言 源 语言 


图 11.6 ”噪声 信道 模型 


可 以 这 样 来 看 机 器 翻译 : 一 种 语言 S 由 于 经 过 了 一 个 噪音 信道 而 发 
生 了 扭曲 变形 ， 在 信道 的 男 一 端 呈 现 为 男 一 种 语言 T， 翻 译 问 题 实际 上 
就 是 如 何 根 据 观察 到 的 语言 T， 恢 复 最 为 可 能 的 语言 Ss。 语言 S 是 信道 意 
义 上 的 输入 ， 在 翻译 意义 上 就是 目标 语言 ， 语 言 T 是 信道 意义 上 的 输 
出 ， 在 翻译 意义 上 就 是 源 语言 。 从 这 种 观点 看 来 ， 一 种 语言 中 的 任何 
一 个 句子 都 有 可 能 是 另外 一 种 语言 中 的 某 儿 个 句子 的 译文 ， 只 是 这 些 
句子 的 可 能 性 各 不 相同 ， 机 器 翻译 就 是 要 找 出 其 中 可 能 性 最 大 的 句 
子 ， 也 就 是 对 所 有 可 能 的 目标 语言 S 计 算出 概率 最 大 的 一 个 作为 源 语言 
T 的 译文 。 由 于 S 的 数量 巨大 ， 可 以 采用 栈 式 搜索 (stack search) 的 方 
法 。 栈 式 搜索 的 主要 数据 结构 是 表 结 构 ， 表 结构 中 存放 着 当前 最 有 项 
BAY IM TTS, FIER IE, BIT ERA 2nd 
果 ， 直 到 表 中 包含 一 个 得 分 明显 高 于 其 他 结果 的 S 时 结束 。 这 种 栈 式 搜 
索 不 能 你 证 得 到 最 优 的 结果 ， 它 会 寻 致 错误 的 翻译 ， 因 而 只 是 一 种 次 
优化 算法 。 


可 见 ， 统 计 机 器 翻译 系统 的 任务 就 是 在 所 有 可 能 的 目标 语言 ( 翻 
译 意义 上 的 目标 语言 ， 也 就 是 噪声 信道 模型 意义 上 的 源 语言 ) 的 句子 
中 寻找 概率 最 大 的 那个 句子 作为 翻译 结果 。 其 概率 值 可 以 使 用 贝 叶 斯 
公式 (Beyes formula) 得 到 (下 面 公式 中 的 T 是 在 翻译 意义 上 的 目标 语 
言 ，S 是 在 翻译 意义 上 的 源 语言 ): 


PC T )PCSIT ) 


P(S) 
由 于 等 式 右 边 的 分 母 P (S) 与 T 无 关 ， 因 此 ， 求 P (TIS) 的 最 大 值 
相当 于 寻找 一 个 T， 使 得 等 式 右边 分 子 的 两 项 乘积 P_ (T) P (SIT) 为 最 


A i s 


大 ， 也 就 是 说 : 
T-argmax P (T) P (S/T) 
这 个 公式 ， 叫 做 统计 机 器 翻译 的 基本 公式 。 其 中 ，P (T) 是 目标 
语言 的 语言 模型 ，P (ST) 是 给 定 T 的 情况 下 S$ 的 翻译 模型 。 根 据 语 言 


模型 和 翻译 模型 ， 求 解 在 给 定 源 语言 句子 S 的 情况 下 最 接近 真实 的 目标 
语言 句子 IT 的 过 程 ， 相 当 噪音 信道 模型 中 解码 的 过 程 。 


统计 机 天 翻 译 翻 译 系统 要 解决 三 个 问题 : 


1. 估计 语言 模型 概率 P (T) ， 也 就 是 估计 目标 语言 译文 (T) 的 流 
IE. 


2. 估计 翻译 概率 P (SIT) ， 也 就 是 估计 目标 语言 (T) 对 于 源 语言 
(S) 的 忠实 度 ; 


3. 设计 有 效 快速 的 搜索 算法 来 求解 T， 使 得 P (T) P (TIS) RA ° 


我 国 著 名 翻译 家 严复 提出 了 翻译 的 三 个 标 
准 :“ 信 ”“ 达 ”“ 雅 *。“ 信 ”就 是 译文 懂得 忠实 度 ,，“ 达 ”就 是 译文 的 流畅 
度 ，“ 雅 ”就 是 译文 的 优雅 度 。 和 鲁迅 先生 把 严复 的 这 三 条 标准 简化 为 两 
条 : 一 条 是 “ 信 ”， 一 条 是 “ 顺 *”。“ 信 ”相当 于 上 忠实 度 ， 也 就 是 P 
(SIT) ;“ 顺 ”相当 于 流畅 度 ， 也 就 是 P (T) ; WRP (T) P (SIT) 的 
值 最 大 ， 译 文 质 量 就 最 好 。 所 以 ， 统 计 机 器 翻译 的 基本 公式 反映 了 人 
们 对 于 译文 的 基本 要 求 ， 是 符合 我 们 对 于 译文 质量 的 直觉 的 。 


比较 著名 的 基于 统计 的 机 顺 翻 译 系统 是 IBM 公 司 的 Candide 系 统 。 


IBM 公 司 布 劳 思 等 研究 者 基于 统计 机 妖 翻 译 的 思想 ， 以 英法 双语 
对 照 加 拿 大 议会 辩论 记录 作为 双语 语料库 ， 开 发 了 一 个 英法 机 器 翻译 
系统 Candide ° 


表 11.1 ”Candide 系 统 与 Systran 系 统 比 较 


Fluency Adequacy Time Ratio 


1993 1992 1993 


Systran ‘ ; . 743 
Candide 
Transman 
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表 11.1 是 ARPA 《美国 国防 部 高 级 研究 计划 署 ) 对 几 个 机 器 翻译 系 
统 的 测试 结果 ， 其 中 第 一 行 是 著名 的 基于 规则 的 机 器 翻译 系统 Systran 
的 翻译 结 有 末 ， 第 二 行 是 Candide 系 统 的 翻译 结 有 末 ， 第 三 行 是 Candide 系 统 
加 人 工 校对 的 结果 ， 第 四 行 是 纯 人 工 翻译 的 结 


评价 指标 有 两 个 :Fluency (流利 程度 ) 和 Adequacy (适当 程度 ， 
译文 对 于 原文 的 忠实 程度 ) 。Transman 是 IBM 研 制 的 一 个 译 后 编辑 工 
具 。Time Ratio 显 示 的 是 用 Candide 加 Transman 人 工 校对 所 用 的 时 间 和 纯 
手工 翻译 所 用 的 时 间 的 比例 。 从 指标 上 看 ，Candide 已 经 超越 了 采用 传 
统 的 基于 规则 方法 的 机 句 翻 译 系 统 Systran。 


据 报 道 ，Candide 机 器 翻译 系统 包括 三 个 部 分 : 


一 一 英语 的 三 元 语法 模型 ; 


一 一 法 语 的 三 元 语法 模型 ; 


一 英语 和 法 语 的 部 分 对 齐 句子 的 高 质量 的 对 应 模型 。 


由 于 计算 的 复杂 性 ，Candide 请 了 一 些 语言 学 家 来 帮助 他 们 做 形态 
分 析 表 、 语 义 标注 、 中 间 表 达 式 的 转换 ，Candide 也 使 用 了 词典 。 可 
见 ， 这 个 系统 还 不 能 说 是 纯 统计 的 。 


IBM 的 这 个 统计 机 器 翻译 系统 后 来 由 于 外 部 和 内 部 的 财政 支持 都 
撤 走 了 ， 因 此 ， 这 个 系统 的 工作 只 坚持 到 1995 年 。 


可 见 ， 统 计 方法 是 令 人 豆 舞 的 ， 可 是 它 并 不 能 解决 所 有 困难 的 问 


题 。 


威 尔 殉 斯 在 批评 Candide 系 统 时 指出 :“ 他 们 在 系统 中 引入 符号 结构 
吏 说 明了 ， 纯 统计 的 假设 已 经 失败 了 。” 这 上段 话 的 语文 原文 


是 : “Incorporating symbolic structures shows the pure statistics hypothesis 


has failed." n] IL, Las c A DIF Scr D Lae UE BEE IA] o 


除了 IMB 公 司 之 外 ， 美 国 还 有 很 多 公司 在 进行 统计 机 絮 翻 译 的 开 
发 研究 。 


2002 年 1 月 ， 在 美国 成 立 了 Language Weaver 公 司 ， 专 门 研制 统计 机 
器 翻译 软件 (Statistical Machine Translation Software ， 简 称 SMTS) , 
TEMPLES Language Weaver 公 司 ， 成 为 该 公司 的 顾问 。Language Weaver 
公司 是 世界 上 第 一 个 把 统计 机 器 翻译 软件 商品 化 的 公司 。 他 们 使 用 机 
器 自动 学 习 的 技术 ， 从 翻译 存储 资料 (translation memories) 、 翻 译文 
档 (translated archives) 、 词 典 (dictionaries & glossaries) 、 因 特 网 

(Internet) 以 及 翻译 人 员 (human translators) 那里 获取 大 量 的 语言 数 


据 ， 在 这 个 过 程 中 ， 他 们 对 这 些 语言 数据 进行 各 种 预 处 理 (pre- 
processing) ， 包 括 文 本 格式 过 滤 (format filtering) 、 光 学 自动 阅读 和 
扫描 (ScantOCR) 、 文 字 转 写 (transcription) 、 文 本 对 齐 (document 
alignment) 、 文 本 片段 对 齐 (segment alignment) 等 。 接 着 ， 把 经 过 预 
处 理 的 语言 数据 ， 在 句子 一 级 进行 源 语言 和 目标 语言 的 对 章 ， 形 成 双 
语 并 行 语料库 (parallel corpus) 。 然 后 使 用 该 公司 自己 开发 的 “LW 学 习 
软件 ” (Language Weaver Learner， 人 简称 LW Learner) ， 对 双语 并 行 语 料 
库 进 行 处 理 ， 从 语料库 中 抽取 概率 翻译 词典 、 概 率 翻 译 模板 以 及 概率 
翻译 规则 等 语言 信息 ， 这 些 抽 取出 来 的 语言 信息 ， 统 称 为 翻译 参数 

(translation parameters) ， 这 样 的 翻译 参数 实际 上 就 是 概率 化 的 语言 知 
识 ， 经 过 上 壕 的 处 理 ， 语 言 数 据 就 变 成 了 概率 化 的 语言 知识 。 翻 译 参 
数 是 该 公司 翻译 软件 的 重要 组 成 部 分 。 为 了 处 理 这 些 翻译 参数 ， 该 公 
司 还 开发 了 一 个 统计 翻译 器 ， 叫 做 解码 器 (Decoder) ， 这 个 解码 器 是 
该 公司 翻译 软件 的 男 一 个 重要 组 成 部 分 ， 解 码 器 和 翻译 参数 成 为 了 
Language Weaver 公 司 翻 译 软 件 的 核心 (core components) 。 解 码 器 使 
用 上 述 通 过 统计 学 习 获 得 的 翻译 参数 对 新 的 文本 进行 机 器 翻译 ， 把 新 
的 源 语言 文本 (new source language documents) 自动 地 翻译 成 新 的 目 
标语 言 译 文 (new target language translation) ， 提 供给 用 户 使 用 。 
Language Weaver 公 司 的 翻译 系统 的 工作 流程 如 图 11.7 所 示 : 


CORE COMPONENTS 
党 tors e OF Li DELIVERABLE 
TRANSLATION 


SOFTWARE 
T 


I 
图 11.7 Language Weaver 统 计 机 器 翻译 软件 工作 流程 


目前 ， 该 公司 开发 的 汉 英 机 需 翻 译 系统 和 英语 一 西班牙 语 双向 机 
霹 翻 译 系统 即将 问世 。 他 们 还 要 使 用 同样 的 方法 ， 开 发 英语 一 法 语 的 
双 回 机 硕 翻 译 系统 、 印 地 语 一 英语 以 及 索马里 语 一 英语 的 单 问 机 天 翻 


FERAS? 

HRT, Scr plas eh RS TR RE BJ BOAR * 3L] DCR Las RITE 
为 例 ， 看 一 看 各 个 统计 机 器 翻译 系统 的 翻译 效果 。 为 了 便于 比较 ， 我 
们 让 这 些 系统 都 翻译 同一 个 汉语 句子 : 


“新 华 网 拉 院 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 时 刻 : 7 月 2 日 零 时 31 
分 ， 首 趟 进 藏 旅客 列车 鸣 啊 汽笛 ， 稳 稳 停 靠 在 拉萨 火车 站 1 号 站 合 。” 


中 国 科学 院 计算 技术 研究 所 (ICT) 的 翻译 结果 : 


“Xinhuanet, Lhasa July 2 ( Xinhua) , this is the world's historical 
moment: 0:31 on July 2, the first trip into Tibet, passenger trains rung first, 


its docked in Lhasa Station No.1 of the campaign." 
谷歌 的 在 线 统计 机 器 翻译 系统 “Google Translator 的 翻译 结果 。 


“Xinhua Xinhua Lhasa, July 2, it is remarkable moment in history. At 
0:31 on July 2, the first passenger train trip to Tibet ringing whistle, firmly 
docked at the Lhasa Railway Station No. 1 Site.” 


HER BE 2 ELT I Las SI FE A 27 “Microsoft Bing Translator” 的 翻译 结 
果 : 


“Xinhuanet, Laca, July 2, this is a remarkable moment in history: hours 
on July 2, the first sound trip into Tibet passenger train whistle, 1th steady 


docked in Lhasa railway station platform.” 


雅虎 的 在 线 统计 机 器 翻译 系统 “Yahoo! Babel Fish” 的 翻译 结果 : 


“New China net Lhasa, July 2-, this is the historical time which attracts 
worldwide attention: On July 2 the zero hour 31 points, the first coming into 


Tibet passenger train resounds the steam shistle, anchors steadily in the 


Lhasa Train station 1st platform." 


AMEE HH, AER NLE BAe aE A RPE, SAE 
AE aie o BEATA OPE nx EMAIL ° 


目前 越 来 越 多 的 互联 网 和 软件 公司 都 推出 了 基于 统计 的 在 线 的 机 
如 翻 详 系 统 。 主 要 的 在 线 统计 机 占 翻 详 系 统 有 : 


一 一 谷歌 的 多 语言 在 线 机 咒 翻 译 系统 Google Translator: 网 址 为 : 
http://translate.google.com ° 


Google miz 


源 语言 : xum v| Ej 目标 语言 : | 中 文 (简体 ) v] | 翻译 "E50 多 种 语言 


Google s 
iE. "xv 图 Bei 英语 | mm 将 中 文 译 成 英语 
新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩 Ei a 7 月 2 日 零 时 31 分 ， 首 趟 进 藏 = Xinhua Xinhua Lhasa, July 2, it is remarkable moment in history: at 0:31 on July 2 
旅客 列 车 鸣 响 汽笛 ， 稳 稳 停 靠 在 拉萨 火车 站 1 号 站 台 the first passenger train trip to Tibet ringing whistle, firmly docked at the Lhasa Railw 
on No. 1 site. 


口 允许 输入 拉丁 字符 的 拼音 
Oat H 显示 对 应 的 拉丁 字符 的 拼音 


图 11.8 ”GoogleTranslator 的 网 站 ， 图 中 显示 了 一 个 汉 英 机 器 翻译 的 实例 


目前 Google Translator ⁄ 4 7 翻译 的 语言 有 58 种 ， 翻 译 方 向 有 
58x57=3 306 个 ， 也 就 是 说 ， 个 系统 可 以 进行 3 306 个 语言 对 的 翻译 工 


作 ， 这 样 的 工作 显然 古人 的 翻译 所 难以 胜任 的 。 


检测 语言 AREAS) 。 加 利 西亚 语 挪威 语 乌克兰 语 印尼 语 


阿 汞 世 尼 导语 HSE 加 泰 罗 尼 亚 语 wes 希 怕 来 语 英语 
阿拉 伯 语 德语 捷克 语 日 语 希腊 语 越南 语 | 
peer aes (ie 克罗地亚 语 瑞典 语 西班牙 的 巴 斯 克 语 pit | 
ERE 法 语 拉丁 语 塞尔维亚 语 西班牙 语 
= ogg FEAE HETE Brie Deus EJ SERI 
白俄罗斯 语 EX SERBS Teens 。 亚美尼亚 语 
保加利亚 语 EREE 罗马 尼 亚 语 Arias Bis 意大利 语 
[ 冰岛 语 海地 克 里 奥 尔 语 马耳他 语 泰语 Bais 
波兰 话 韩语 马 来 语 土耳其 语 印 地 语 
波斯 语 荷兰 语 马其顿 语 威尔士 语 PE GRAMS 


图 11.9 Google Translator 可 翻译 的 语言 


如 采用 户 不 知道 文本 的 语言 是 哪 一 种 语言 ，Google Translator 系 统 
还 可 以 帮助 用 户 进 行 检 测 ， 根 据 文本 中 字母 的 同 现 概 率 来 判定 该 文本 
究竟 属于 哪 一 种 语言 ， 从 而 进行 机 器 翻译 ， 这 大 大 地 方便 了 说 不 同 语 
言 的 人 们 在 互联 网 上 的 沟通 。 


微软 的 多 语言 在 线 机 融 翻 译 系统 Microsoft Bing Translator 
(“ 必 应 ”系统 ) ， 网 址 为 http://www.microsofttranslator.com ° 


必 应 bing- Beta i 
企 线 翻译 

主页 | 用 户 | FRAR | 站 点 所 有 者 | 帮助 

源 语言 : 简体 中 文 

目标 语言 : 英语 Y 2 


新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 时 刻 ; 7 B2EERT 3143 , BREA Xinhuanet, Laca, July 2-, this is a remarkable momentin history: hours on July 2, the first sound trip 
WR» BIBSEEIIE KEM ISH EG. into Tibet passenger train whistle, 1th steady docked in Lhasa railway station platform. 


输入 文本 或 网 页 URL 全 部 清除 E Wat: 4" xs QrsE 


图 11.10  MicrosoftBingTranslatorB 44, Alias T — 4 DOR sS BITES 


Microsoft Bing Translator "J Æ 3E Bj iE EH 35 ff, MAT IS 
35x34-1 190 个 。 
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图 11.11 Microsoft Bing Translator 可 翻译 的 语言 


"YAFIOO!, BABEL FISH 


In English 


New China net Lhasa, July 2 -, this is the historical 
time which attracts worldwide attention: On July 2 the 
zero hour 31 points, the first coming into Tibet 
passenger train resounds the steam shistle, anchors 
steadily in the Lhasa Train station 1st platform. 


Translate again ee (Enter up to 150 words ) 
新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 


时 刻 : 7 月 2 日 地 时 31 分 ， 首 趟 进 藏 旅客 列车 鸣 响 汽 
符 ， 稳 稳 停 雁 在 拉萨 火车 站 1 号 站 台 。 


Chinese-simp to English v 


Translate a web page a 


http:// 
Chinese-simp to English v 


图 11.12 Yahoo! BabelFish 的 网 站 ， 图 中 显示 了 一 个 汉 瑞 机 器 翻译 的 实例 


Select from and to languages |*] 


Select from and to languages 
Chinese-simp to English 
Chinese-simp to Chinese-trad 
Chinese-trad to English 
Chinese-trad to Chinese-simp 
English to Chinese-simp 
English to Chinese-trad 
English to Dutch 

English to French 

English to German 

English to Greek 

English to Italian 

English to Japanese 

English to Korean 

English to Portuguese 

English to Russian 

English to Spanish 

Dutch to English 

Dutch to French 

French to Dutch 

French to English 

French to German 

French to Greek xm 
French to Italian 

French to Portuguese 

French to Spanish 

German to English 


M 


图 11.13 Yahoo! Babel FishD 可 翻译 的 语言 对 


Microsoft Bing Translator 系 统 也 可 以 帮助 用 户 目 动 地 检测 文本 所 局 


的 语言 。 


一 一 雅虎 的 多 语言 在 线 机 器 翻译 系统 Yahoo! Babel Fish， 网 址 为 : 
http://babelfish.yahoo.com ° 


Yahoo! Babel Fish 系 统 可 翻译 语言 的 翻译 方向 有 : 


男 外 ， 我 国 “ 百 度 ” 的 在 线 英汉 机 器 翻译 系统 也 取得 了 较 好 的 效 
R, AT APRITE ° 


这 些 在 线 统计 机 器 翻译 系统 不 仅 直 接 推动 了 机 器 翻译 研究 的 发 
展 ， 而 且 ， 大 大 地 方便 了 人 们 的 生活 与 学 习 ， 人 关 的 语言 障碍 正在 逐 
渐 得 到 克服 。 这 是 信息 时 代 自然 语言 处 理 研究 的 重大 成 果 ， 值 得 我 们 
密切 关注 。 


当前 机 器 翻译 人 研究 的 大 量 事 实证 明 ， 在 机 颖 翻译 中 ， 对 语言 的 分 
析 并 非 越 深 越 好 ! 目前 ， 人 们 更 加 倾向 于 通过 扩大 语言 模型 训练 数据 
规模 的 方法 ， 从 大 规模 真实 的 语 料 中 获取 对 于 机 器 翻 详 有 用 的 语言 知 
识 ， 并 适当 地 进行 一 些 浅 层 的 语言 分 析 ， 把 基于 统计 的 机 带 翻 详 与 基 
于 规则 的 机 故 翻 译 结 合 起 来 ， 争 取得 到 最 好 的 机 右 翻 详 结 果 ， 而 这 种 
最 好 的 机 器 翻译 结果 ， 可 以 是 全 上 自动 的 ， 但 却 不 一 定 是 高 质量 的 ， 而 
只 是 具有 较 高 参考 性 的 译文 。 


另外 一 种 基于 语料库 的 机 器 翻译 是 基于 实例 的 机 器 翻译 。 下 面 我 
们 就 来 介绍 这 种 基于 实例 的 机 器 翻译 。 


基于 实例 的 机 器 翻译 (Example-based MT， 人 简称 EBMT) 的 思想 最 
早 是 由 日 本 机 器 翻译 专家 长 尾 真 (Nagao Makoto) 提出 来 的 。 他 在 
1984 年 发 表 了 《采用 类 比 原则 进行 日 一 英 机 器 翻译 的 一 个 框架 》 一 
X, 探讨 日 本 人 初学 英语 时 翻译 句子 的 基本 过 程 。 长 尾 真 认为 ， 初 学 
英语 的 日 本 人 总 是 记 住 一 些 最 基本 的 英语 句子 以 及 一 些 相 对 应 的 日 语 
人 句子， 他 们 要 对 比 不 同 的 秽语 句子 和 相对 应 的 日 语句 子 ， 并 由 此 推论 
出 句子 的 结构 。 参 照 人 学 习 外 语 的 这 个 过 程 ， 在 机 絮 翻 译 中 ， 如 采 我 
们 给 出 一 些 英 语句 子 的 实例 以 及 相对 应 的 日 语句 子 ， 机 器 翻译 系统 
识别 和 比较 这 些 实例 及 其 译文 的 相似 之 处 和 相差 之 处 ， 从 而 挑选 出 正 
确 的 译文 。 


长 尾 真 指出 ， 人 类 并 不 通过 做 深层 的 语言 学 分 析 来 进行 翻译 ， 人 
类 的 翻译 过 程 是 : 首先 把 输入 的 句子 正确 地 分 解 为 一 些 短语 碎片， 接 
着 把 这 些 短 语 碎片 翻译 成 其 他 语言 的 短语 碎片 ， 最 后 再 把 这 些 短语 碎 
片 构成 完整 的 句子 ， 每 个 短语 碎片 的 翻译 是 通过 类 比 的 原则 来 实现 
的 ， 也 就 是 “通过 类 比 来 进行 翻译 ” (“translation by analogy”) 。 因 此 ， 
我 们 应 该 在 计算 机 中 存储 一 些 实例 ， 并 建立 由 给 定 的 句子 搜索 类 似 例 
句 的 机 制 ， 这 是 一 种 由 实例 引导 推理 的 机 器 翻译 方法 ， 也 就 是 基于 实 
例 的 机 器 翻译 方法 。 


在 基于 实例 的 机 器 翻译 系统 中 ， 系 统 的 主要 知识 源 是 双语 对 照 的 
翻译 实例 库 ， 实 例 库 主要 有 两 个 字段 ， 一 个 字段 保存 源 语言 句子 ， 为 
一 个 字段 保存 与 之 对 应 的 译文 ， 每 输入 一 个 源 语 言 的 句子 时 ， 系 统 把 
这 个 句 于 同 实例 库 中 的 源 语言 句子 字段 进行 比较 ， 找 出 与 这 个 句子 最 
为 相似 的 句子 ， 并 模拟 与 这 个 句子 相对 应 的 译文 ， 最 后 输出 译文 。 


基于 实例 的 机 器 翻译 过 程 一 般 可 分 为 三 个 阶段 : 匹配 
(matching) ， 对 齐 (alignment) ， 重 新 组 合 (recombination) ° 


匹配 阶段 可 有 多 种 方法 来 实施 ， 这 取决 于 实例 是 如 何 存储 的 。 


如 有 果 在 基于 实例 的 机 夷 翻译 系统 中 ， 实 例 是 以 标注 了 的 树 结构 存 
在 的 ， 两 种 语言 的 成 分 间 存 在 着 明确 的 联系 ， 因 此 ， 新 输入 的 句子 要 
使 用 和 前 面相 同 的 语法 规则 来 进行 剖析 ， 词 汇 层面 的 差异 由 分 级 词典 
来 量化 ， 语 言 中 所 有 保留 的 部 分 都 是 经 过 竞 切 和 粘贴 部 分 重合 的 树 结 
构 而 来 的 。 


如 果实 例 不 是 以 标注 了 的 树 结构 而 存在 的 ， 那 么 ， 束 要 将 这 些 实 
例 和 新 的 输入 看 作 是 字符 串 ， 匹 配 的 过 程 就 变 成 了 对 于 有 关 实 例 的 顺 
序 进 行 比较 ， 这 其 中 可 以 采用 很 多 不 同 的 算法 。 由 于 没有 树 结构 可 以 
ROG, MSTA EMS SHEE IA MAT SES REC AR 。 
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或 调换 这 样 的 实例 来 解决 这 个 问题 ， 对 于 某 些 特殊 的 实例 ， 要 进行 手 
动 删除 或 重新 调整 实例 。 


匹配 阶段 需要 找到 和 输入 有 相似 性 的 用 于 翻译 的 实例 ， 对 齐 阶段 
要 确定 哪 一 部 分 对 应 的 翻译 将 被 再 次 利用 。 如 有 果实 例 存储 的 方式 使 得 
语言 间 的 联系 非常 清晰 ， 这 个 过 程 便 非常 位 单 ， 否 则 就 需要 涉及 一 些 
更 复杂 的 过 程 ， 或 者 需要 运用 双语 词典 ， 或 者 与 其 他 的 实例 进行 对 
比 。 在 基于 实例 的 机 如 翻译 系统 中 ， 这 样 的 对 章 是 目 动 完成 的 。 有 些 
系统 中 ， 匹 配 阶段 将 确定 合适 的 含有 需要 翻译 的 例子 。 


在 重新 组 合 阶 段 ， 我 们 要 以 合理 的 方式 将 那些 需要 重新 组 合 的 成 
分 放 在 一 起 。 为 了 说 明 这 一 点 ， 我 们 以 德语 为 例 ， 因 为 德语 有 请 晰 的 
格 标记 区 分 主语 和 宾语 。 例 如 ， 在 英语 到 德语 的 机 副 翻 译 系统 中 ， 如 
果 我 们 要 在 例子 b 和 c 的 基础 上 来 翻译 句子 a。 由 于 在 b 和 c 的 德语 文本 


中 ， 对 应 于 英语 短语 the handsome boy 的 德语 译文 在 每 个 例子 中 都 不 一 
样 ， 在 b 中 是 主格 形式 Der schone Junge， 在 c 中 是 宾 格 形式 den schonen 
Jungen, ， 我 们 需要 根据 德语 的 语法 以 便 选 取 合 适 的 译文 作为 a 中 the 
handsome boy 的 德语 译文 ， 由 于 a 中 的 the handsome boy 是 主语 ， 因 此 ， 
我 们 需要 选取 主格 形式 Der schöne Junge 作 为 he handsome boy 的 译文 。 


a. The handsome boy entered the room. 

b. XY: The handsome boy ate his breakfast. 
德 文 : Der schöne Junge aß seinen Frühstück. 

c. XX: Isaw the handsome boy. 


i: Ich sah den schönen Jungen. 


基于 实例 的 机 器 翻译 系统 中 ， 翻 译 知 识 以 实例 和 机 响 词 典 的 形式 
来 表示 ， 易 于 增加 或 删除 ， 系 统 的 维护 简单 易 行 ， 如 果 利 用 了 较 大 的 
翻译 实例 库 并 进行 精确 的 对 比 ， 束 有 可 能 产生 高 质量 译文 ， 而 且 避 人 免 
了 基于 规则 的 那些 传统 的 机 右 翻 译 方 法 必须 进行 深层 语言 学 分 析 的 困 
难 。 这 种 机 絮 翻 译 方法 在 翻译 全 上 略 上 是 很 有 吸引 力 的 。 


要 进行 基于 实例 的 机 器 翻译 需要 人 研究 如 下 问题 : 


第 一 ， 正 确 地 进行 双语 自动 对 齐 (alignment) : 在 实例 库 中 要 能 
准确 地 由 源 语言 例句 找到 相应 的 目标 语言 例句 ， 在 基于 实例 的 机 右 翻 
译 系统 的 具体 实现 中 ， 不 仅 要 求 进行 句子 一 级 的 对 齐 ， 而 且 还 要 求 进 
行 词 汇 一 级 甚至 短语 一 级 的 对 齐 。 


第 二 ， 建 立 有 效 的 实例 匹配 检索 机 制 : 很 多 人 研究 者 认为 ， 基 于 实 
TA AAT a RE AS I EF TED A TS ASE I, LIE TE 
语 一 级 进行 对 齐 ; Bæ, PAKAR, RA ATRAE T 
rE, EX HOUR, MTS BOE EA BER, Wie, AEE 


似 度 准 则 (similarity metric) ， 以 便 确 定 两 个 句子 或 者 短语 碎片 是 否 相 
似 。 


第 三 ， 根 据 检索 到 的 实例 生成 与 源 语言 句子 相对 应 的 目标 语言 详 
X: 由 于 基于 实例 的 机 器 翻译 对 源 语言 的 分 析 比 较 粗 ， 生 成 译文 时 往 
往 缺 乏 必 要 的 信息 ， 为 了 提高 译文 生成 的 质量 ， 可 以 考虑 把 基于 实例 
的 机 右 翻 译 与 传统 的 基于 规则 的 机 右 翻 译 方 法 结合 起 来 ， 对 源 语言 
进行 一 定 深 度 的 分 析 。 


目前 世界 上 的 基于 实例 的 机 絮 翻 译 系 统 主要 有 : 


一 一 日 本 京都 大 学 长 尾 真 和 佐 采 (S. Sato) 的 MBT1 和 MBT2 系 
Zi: MBT1 只 能 利用 句子 的 格 框架 来 选择 适当 的 译文 ， 实际 上 只 是 一 个 
基于 实例 的 译文 选择 系统 。MBT2 是 一 个 完整 的 基于 实例 的 机 絮 翻 译 系 
统 ， 该 系统 的 翻译 过 程 分 为 分 解 (decomposition) 、 转 换 
(transfer) 、 合 成 (composition) 三 步 。 在 分 解 阶 段 ， 系 统 根据 提交 
的 源 语言 词汇 依存 树 检 索 实 例 库 ， 并 利用 检索 到 的 实例 碎片 来 表示 该 
源 语言 句子 的 依存 树 ， 形 成 源 匹 配 表达 式 ， 在 转换 阶段 ， 系 统 利 用 实 
例 库 中 的 对 齐 信息 将 源 匹 配 表 达 式 转换 成 目标 匹配 表达 式 ; 在 合成 阶 
段 ， 将 目标 匹配 表达 式 展开 成 为 目标 语言 词汇 依存 树 ， 输 出 译文 。 该 
系统 的 分 解 阶段 相当 我 们 前 面 介 绍 的 匹配 阶段 ， 该 系统 的 转换 阶段 相 
当 于 我 们 前 面 介 绍 的 对 齐 阶 段 ， 该 系统 的 合成 阶段 相当 于 我 们 前 面 介 
绍 的 重新 组 合 阶段 。 其 翻译 原理 与 其 他 的 基于 实例 的 机 融 翻 译 系统 是 
完全 一 致 的 。 


一 一 美国 卡 内 基 一 梅 隆 大 学 的 多 3 引擎 机 器 翻译 系统 (Multi-engine 
Machine Translation) PANGLOSS 系 统 : 这 个 系统 的 主要 引 警 是 基于 知 
识 的 机 需 翻 译 系统 ， 基 于 实例 的 机 器 翻译 系统 只 是 它 的 一 个 引 警 ， 为 


整个 多 引 警 机 器 系统 提供 候选 结 采 。 下 面 我 们 还 要 进一步 介绍 这 个 多 
3| SEN USE ETE IRE o 


一 一 日 本 口语 翻译 通信 研究 实验 室 ATR 的 ETIOC 和 EBMT 系 统 : 
ETOC 系 统 能 够 检索 出 与 给 定 的 源 语言 句子 相似 的 实例 ，EBMT 系 统 能 
够 利用 实例 库 来 消解 歧义 ， 这 两 个 基于 实例 的 机 器 翻译 系统 目前 还 不 


完整 。 


我 国清 华 大 学 计算 机 系 也 进行 了 基于 实例 的 机 器 翻译 试验 ， 建 立 
了 基于 实例 的 日 汉 机 融 翻 译 系 统 ， 在 哈尔滨 工业 大 学 和 清华 大 学 联合 
开发 的 计算 机 写作 和 翻译 的 集成 环境 “ 达 雅 ”系统 中 ， 也 使 用 了 基于 实 
例 的 技术 。 


第 三 节 口语 机 器 翻译 


20 世 纪 80 年 代 以 来 ， 国 外 开始 目 动 翻译 电话 的 赋 究 ， 在 日 本 关 西 
地 区 成 立 了 自动 电话 人 研究 所 (Interpreting Telephone Research Institute 
International， 简 称 ART) ,其 目的 在 于 把 语音 识别 、 语 音 合成 技术 用 于 
机 器 翻译 中 ， 实 现 口 语 机 器 翻译 。 


目标 语言 allan, 
语音 输出 
图 11.14 口语 机 器 翻译 流程 


这 个 流程 可 以 简明 地 表示 为 如 下 的 原理 图 示 : 


Dr 目标 语言 
语音 输入 语音 输出 
一 一 一 > peo) 


知识 库 3 


知识 库 1 知识 库 2 


图 11.15 ”口语 机 器 翻译 流程 的 原理 图 示 


在 这 个 原理 图 中 ，ASR 上 自动 语 首 识别 ( Automatic Speech 
Recognition) 的 英文 缩写 ,MT 是 机 器 翻译 (Machine Translation) 的 英 
文 缩 写 ，TTS 是 文本 语音 转换 (Text-To-Speech) 的 英文 缩写 。 


1987 年 10 月 在 瑞士 日 内 瓦 召 开 的 TELECOM'87 会 议 期 间 举 办 的 最 
新 通信 技术 国际 展览 会 上 ， 表 演 了 自动 翻译 电话 试验 。 他 们 把 机 器 翻 
译 系统 与 办 公用 通讯 网 (NTT, KDD, PTT) 等 结合 起 来 ， 利 用 通信 卫 
星 ， 在 瑞士 与 日 本 之 间 通 话 ， 在 日 本 的 通话 者 讲 日 语 ， 在 瑞士 的 通话 


着 可 以 昕 到 经 过 机 妖 翻 译 得 到 的 相应 的 英语 口语 译文 ， 在 瑞士 的 通话 
者 讲 英 语 ， 在 日 本 的 通话 者 可 以 听 到 经 过 机 需 翻 译 的 相应 的 日 语 译 
文 。 目 动 翻译 电话 通话 试 答 ， 一 时 引起 条 动 。 


此 后 ， 口 语 机 妖 翻 译 在 各 国 开 展 起 来 ， 国 外 部 分 有 代表 性 的 系统 
如 下 : 
口 国外 部 分 代表 系统 
系统 名 称 开发 单位 | 时 间 领域 语种 | 方法 | 词汇 量 
Speech Trans CMU 1989 en 日 英 RB 一 
NK CMU, 旅馆 德 英 
JANUS - III OH 1997 预定 日 西 ME 开放 
旅馆 日 英 
ATR - MATRIX ATR 1998 E o e ae 2 000 
预定 韩 德 等 
航空 英汉 
Head-Trans AT&T 1996 SB 1 300 
人 旅游 | 西班牙 
Verbmobil BMBF 90's | 会 晤 日 程 | 德 英 等 | ME | 2500— 
图 11.16 ”国外 部 分 语音 翻译 系统 


图 中 ，RB 是 “基于 规则 ” (Rule-Based) 的 英文 缩写 , ME 是 “最 大 
AB" (Maximum Entropy) 的 英文 缩写 ,EB 是 “基于 实例 ” (Example- 
Based) 的 英文 缩写 ，SB 是 基于 统计 (Statistic-Based) 的 英文 缩写 。 


近来 ， 中 国 科 学 院 目 动 化 研究 所 模式 识别 国家 重点 实验 室 
(NLPR) 与 韩国 电子 通信 研究 所 (ETRD 合作 ， 进 行 了 汉语 和 韩语 的 
口语 翻译 实验 ， 在 北京 打 电 话 用 汉语 ， 在 韩国 大 田 的 ETRI 听 到 的 是 韩 
语 ， 在 昔 国 大 田 打 电 话 用 韩语 ， 在 北 泵 听 到 的 是 汉语 ， 这 样 的 成 绩 令 


人 鼓舞 (图 11.17) 


学 基于 普通 手机 的 中 韩 双 向 语音 翻译 系统 


In ETRI In NLPR 


INS 


Speech Speech 


Korea HLT 


IF 


Chinese 
speaker 


Korea 
speaker 


Chin HLT 
F, 


PE ainiai 


ILT: Speech recognizer, 
'arsing from utter. to 
F, and TTS. 


图 11.17 中 韩 双 癌 语音 翻译 系统 


| Communication 
| Switch server. 


ERAGE B AREMT T P Ae ee a e d 
图 11.18 所 示 。 日 本 顾客 用 日 语 癌 中 国 的 服务 员 提 问 ， 经 过 口语 机 需 翻 
译 ， 服 务 员 听 到 的 是 汉语 ;中 国 的 服务 员 用 汉语 回答 ， 经 过 口语 机 第 
翻译 ， 日 本 顾客 听 到 的 是 日 语 。 


图 11.18 ”中 日 双向 语音 翻译 


do. A (& 6h dk A 


Mey | hava your baiophone number j 


— 


E119 ”中 英 双向 口语 翻译 机 | 


2007 年 ， 中 国 科学 院 目 动 化 所 开发 完成 基于 掌上 电脑 的 汉 英 双 回 
语音 翻译 原型 系统 : 中 英 双 向 口语 翻译 机 。 


不 过 ， 这 些 口语 机 亏 翻译 实验 都 是 在 特定 的 领域 进行 的 ， 由 于 机 
器 翻译 、 语 音 的 识别 与 合成 都 是 十 分 困难 的 技术 ， 集 这 些 困 难 技术 于 
一 身 的 目 动 翻译 电话 的 实用 化 还 不 是 可 以 一 跃 而 吏 的 。 


为 了 开发 语音 自动 翻译 系统 ， 国 际 上 建立 了 国际 语音 翻译 联盟 
(Consortium for Speech Translation Advanced Research, ， 简 称 C-STAR) 
的 组 织 ，2000 年 10 月 ， 中 国 科 学 院 自动 化 研究 所 国家 模式 识别 实验 室 

(National Lab of Pattern Recognition, NLPR) 成 为 了 该 组 织 的 7 个 核心 
BE — ° 


图 11.20”C-STAR 的 7 个 核心 成 员 分 布 


C-STAR 使 用 一 种 中 间 和 转换 式 (Interchange Format， 简 称 IF) ° 
个 成 员 国 分 别 研 制 本 国语 言 到 IF 的 分 析 和 生成 ， 这 样 ， 各 种 语言 就 
需 分 别针 对 IF 开发 一 个 从 该 国语 言 到 正 的 分 析 系 统 以 及 从 正 到 本 国语 言 


的 生成 系统 就 可 以 了 。 
C-STAR 使 用 中 间 转 换 式 IF (Interchange Format) 来 建立 的 翻译 框 


各 
LH 
LN 


架 如 图 11.21 所 示 。 


C to IF IFtoC 


翻译 框架 


> " IF: Interchange Format 
or Translated Text 


mi x C-STAR 翻 译 框 架 : 使 用 中 间 转 换 式 IF 


现在 正在 研制 C-STAR III， 其 目标 是 研制 语音 的 实用 技术 ， 为 旅游 
提供 口语 机 器 翻译 的 技术 支持 ， 在 任何 地 方 ， 任 何 时 刻 都 能 够 进行 口 
语 机 器 翻译 翻译 服务 (411.22) ° 


C-STAR III Goal 


= Technology for real 
application 

a Translating aid for 
traveler 

a Service available 
anywhere, anytime 


11.22 C-STAR II 的 目标 


当然 ， 要 实现 这 个 目标 是 很 困难 的 ， 目 前 ， 语 音 识 别 的 质量 还 不 
高 ， 在 噪声 环境 下 ， 识 别 效果 还 不 好 ， 不 过 ， 语 音 合成 已 经 接近 实用 


水 平 ， 而 文字 的 输入 和 自动 翻译 已 经 达到 一 定 的 水 平 ， 因 此 ， 可 以 考 
虑 把 文字 输入 、 机 器 翻译 和 语音 输出 结合 起 来 。 


PWT ”翻译 记忆 与 本 土 化 工具 


在 机 右 翻 译 实 用 化 的 研究 中 ， 学 着 们 还 设计 了 翻译 记忆 软件 与 本 
土 化 软件 工具 。 


“翻译 记忆 ” (Translation Memories， 简 称 TMs) 软件 能 够 保存 和 重 
复 使 用 翻译 工作 者 已 经 翻译 好 的 译文 。 这 些 译 文 对 于 新 的 翻译 文件 来 
看 ， 是 “似曾相识 的 记忆 ”， 这 使 我 们 想起 我 国 上 古诗 中 的 名 句 : “无 可 奈 
MERA, 似曾相识 苛 归 来 *， 翻 译 记 忆 束 是 “似曾相识 ”的 “ 樵 子 ”。 


翻译 记忆 软件 在 内 容 修 订 和 更 新 的 全 过 程 中 能 保存 和 重复 使 用 译 
文 。 如 采 有 新 的 资料 需要 翻译 ， 可 以 使 用 原来 存储 在 翻译 记忆 中 的 译 
X, 重复 使 用 原来 的 译文 。 这 种 翻译 记忆 的 方法 与 基于 统计 的 机 右 翻 
译 的 思路 是 很 接近 的 。 


使 用 翻译 记忆 的 方法 ， 原 来 的 译文 与 狐 的 资料 之 间 要 进行 匹配 ， 
或 者 是 精确 匹配 (exact match) ， 或 者 完全 匹配 (full match) ,或 者 是 
模糊 匹配 (fuzzy match) ， 翻 译 记忆 软件 可 以 根据 匹配 的 不 同 水 平 来 
决定 翻译 策略 。 


翻译 记 忆 软 件 与 机 融 翻 译 软件 不 同 ， 机 瑚 翻译 软件 是 一 种 目 己 进 
行 翻译 的 软件 系统 ， 它 只 能 提供 质量 不 高 的 译文 草稿 。 而 翻译 记忆 软 
件 可 以 保存 和 重复 使 用 人 工 翻 译 工 作者 的 译文 ， 保 证 了 译文 的 质量 ， 
减少 了 翻译 的 开 文 ， 降 低 了 翻译 的 成 本 ， 避 免 了 重复 的 翻译 ， 而 且 还 
可 以 保证 翻译 的 一 致 性 ， 特 别 是 保证 术语 翻译 的 一 致 性 。 


翻译 记忆 是 企业 重要 的 知识 资产 ， 作 为 知识 痪 产 的 翻译 记忆 库 ， 
可 以 在 公司 内 得 到 最 大 程度 的 应 用 和 重复 使 用 。 中 央 翻 译 记忆 库 中 保 
存 的 译文 越 多 ， 降 低 的 成 本 也 束 越 多 。 我 们 可 以 采用 集中 管理 翻译 记 
忆 库 的 方法 ， 来 提高 翻译 记忆 库 的 使 用 效率 。 


TRADOS 公 司 的 翻译 记忆 系列 产品 Translatiors Workbench 
(http://www.trados.com) ， 就 是 一 个 很 出 色 的 翻译 记忆 软件 (图 
11.23) 。 


"TRADOS 
cds 合作 伙 件 资源 联系 SDL 
Translation Memory 


Translation Memory 


Web sites. Product catalogs. Sales tools. Marketing messages. Brands. 
Documentation. Customer support guides. Compliance documents. What 
do they have in common? 


SDL TRADOS Certification They all contain similar, if not identical, carefully-crafted language and messages, recurring 
phrases and statements that can make up to 40% or more of the text in your company's 


Propam communications. For some companies, as much as 70%. 


| So for you to deliver your content to global markets, translators have to re-translate the same 
phrases again and again, introducing new inconsistencies into your brandi i 


isten yo 

slowing down your multinational operations. To salve that problem, and to ensure you are 
connected with the global ecosystem of SDL TRADOS-enabled translation technology 
users, you can rely on SDL Trados 2006. It can be the single biggest factor in improving the 
speed, consistency, accuracy, and costs of your localized content. 


SDL Context TM SDL Trados CCM 


图 11.23 ”Trados 翻 译 记忆 


本 土 化 (localization) 是 商品 适应 本 土 市 场 要 求 的 过 程 。 在 本 土 化 
过 程 中 ， 除 了 翻译 工作 之 外 ， 还 要 考 虚 本 土地 区 的 文化 习俗 。 本 土 化 
软件 有 必要 把 与 翻译 有 关 的 各 种 功能 结合 起 来 ， 实 现 “ 所 见 即 所 
fà" (What You See Is What You Get， 人 简称 WYSIWYG) 的 服务 。 


Corel 公 司 的 本 土 化 软件 Catalyst (http//alchemysoftware.ie ) ， 是 
一 个 很 著名 的 本 土 化 软件 (图 11.24) ° 


COMPANY INFO 


PRODUCTS SUPPORT PARTNERS 


“We GHOSE ALCHEMY 
CATALYST as our 
LOCALIZATION 
TECHNOLOGY AS IT 
ALLOWS DUR ENGINEERS 
TD £NBURE CONSISTENCY 
18 MAINTAINED USING 
TRANBLATION MEMORY 
AND ALSO REDUCES THE 
ABBOCIATED ENGINEERING 
AND TESTING COSTS BY 
LEVERAGING PREVIOUS 
TRANBLATION AND 
Larout.’ 


Aidan Collins, 
Nortel Network. 


The Pioneer of Visual Localization Solutions 


Alchemy CATALYST is the world's most recognized visual 
localization technology. 80% of the world's largest software 
companies use Alchemy CATALYST to accelerate entry to 
international markets, improving revenue growth opportunities and 
reducing their costs. 


With over 11,000 licenses worldwide, Alchemy CATALYST is the 
dominant choice among professional development companies, 
localization service providers arid global technology leaders such as 
Siemens, Corel, Philips, Canon, JD Edwards, VistaTec, Bowne Global 


| INFORMATION CENTRE 


图 11.24 ”Catalyst 本 土 化 软件 
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Learn how Alchemy Layout 
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PASS SOFTWARE LOCALIZER 


Makes Your 
Software Ready for the 
Global Market 


passol 
Google Search ] 


dk 件 


( Pass 
是 另 一 个 著名 的 本 土 化 软件 


(图 11.25) 


| Home Features Download Order Partner Support Company 
Home 
Welcome to PASSOLO Testimonials 
Introducing products to foreign markets is one of the key challenges in an Hans Fiers 


increasingly globalized world, To ensure success in the global market place, it is 
essential to communicate with customers in their regional languages. Translation 


and localization are thus becoming critical factors for international success. 


Meeting the localization challenge offers companies new opportunities to develop 


markets and increase profits, 


PASSOLO - one of the market leaders in software localization tools - offers 
cutting-edge localization technology, proven usability across all the major 
software platforms, powerful interfaces for customization and integration... and 


very competitive, scalable pricing. 


Please come in to find out more about how PASSOLO can help you meet the 


localization challenge. 


PASSOLO is the most popular localization tool 
Bonn, May 2006. 


Since April 28th it is official: PASSOLO is the 
localization tool with the largest and most 

satisfied customer base. That, at least, is the 

result of the Client Side News (CSN) survey = 
carried out by the US-based enterprise for the | ~ 
fourth time this year, 


~ 


Visitors to the CSN Web site had three months to 
cast their votes for different categories, including 
the best localization tool. PASSOLO received this 


coveted prize for the first time this year. Clientside 


EXCELLENCE 


What makes this award so important for us is that AWAR 


it is given by the customers. It's not a matter of 


Documentation Manager 
Agfa Healthcare Informatics, Belgium (May 2006) 


"A well deserved price (CSN Award 2006). 
Congratulations to the whole PASSOLO team!" 


Karen Sanders 
Quality Assurance Manager 
Seagull Scientific, Inc., USA (May 2006) 


"We have been using PASSOLO for about 6 
months. The initial implementation was surprising 
quick and easy - we were up and running with 
PASSOLO in a matter of a day or two, Additionall: 
we have found the PASSOLO interface extremely 
intuitive. We often have in-country personnel 
contribute translation work. Previously we would 
distribute Excel documents for translations, but 
now we send 4 PASSOLO translation bundle with 
short description of how to download the 
Translator version from PASSOLO and a brief 
description of how to get started. The learning 
curve is minimal and the translators enjoy workir 
with the product. 


With our old tool and processes, managing 
translations and sizing dialogs was very hands-or 
and extremely time intensive. PASSOLO's 
automation interface has allowed us to streamline 
procedures. For instance, integration with our bui 
process allows for automatic update of source file 
which is then automatically propagated to the 
translation files, thus ensuring that the UI of each 
language is always in synch with the source 

: PLE 


图 11.25 ”Passolo 本 土 化 软件 


Localizer ) 
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具体 的 现实 。 


不 过 ， 在 机 器 翻译 系统 纷纷 宣布 实用 化 商品 化 的 一 厂 乐 融融 的 气 
所 中 ， 也 有 一 些 现象 令 我 们 担忧 。 从 已 经 推出 的 实用 化 机 器 翻译 系统 
的 译文 质量 来 看 ， 还 不 十 分 令 人 满意 ， 对 于 一 些 简 单 的 句子 ， 译 文 一 
般 不 会 有 大 问题 ， 但 对 于 一 些 稍 长 的 句子 或 结构 稍 复杂 的 句子 ， 译 文 
质量 就 不 能 令 人 满意 ， 有 时 简直 是 不 可 蔡 读 ， 有 的 系统 为 了 保持 一 定 
的 译文 质量 ， 不 得 不 将 输入 语言 的 范围 加 以 严格 的 限制 。 因 此 ， 有 许 
多 商品 化 系统 虽然 卖 出 去 了 ， 但 使 用 情况 并 不 理想 。 例 如 ， 日 本 富士 
通 的 AILAS 系 统 已 售 出 300 多 套 ， 但 是 据说 只 有 10% 的 用 户 在 使 用 。 
内 一 些 商 品 化 的 机 器 翻译 系统 ， 虽 然 也 有 一 定数 量 是 销售 额 ， 但 用 户 
使 用 的 实际 情况 并 不 十 分 理想 。 这 有 探索 性 的 大 型 机 器 翻译 计划 
EUROTRA 和 ODA， 至 今 尚 未 达到 预期 的 目的 。 机 器 翻译 系统 的 实用 
化 和 商品 化 问题 面临 着 严峻 的 考验 o 


看 来 ， 我 们 对 于 机 妖 翻 译 产 品 的 实用 化 和 商品 化 ， 还 不 能 估计 得 
过 分 乐观 。1964 年 美国 ALPAC 报 告 指出 的 机 吉 翻 译 遇 到 的 “语义 障 
碍 ”至 今 仍然 存在 ， 机 需 翻 译 技术 至 今 似乎 仍然 没有 取得 突破 性 的 进 
展 。 因 此 ， 今 后 进一步 加 强 机 器 翻译 基础 理论 和 应 用 技术 的 研究 ， 仍 
然 是 非常 必要 的 。 


不 过 ， 无 论 如 何 ， 机 器 翻译 已 经 从 人 们 的 梦想 逐步 变 成 活生生 的 
现实 ， 这 是 令 我 们 感到 振奋 的 。 机 器 翻译 随 着 计算 机 的 诞生 而 诞生 ， 
它 也 将 随 着 计算 机 的 发 展 而 发 展 ， 只 要 有 计算 机 存在 ， 机 器 翻译 的 研 
究 束 会 存在 。 机 器 翻译 水 远古 一 个 与 计算 机 共生 共存 的 研究 领域 。 
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[1] BLEUZ&BiLingual Evaluation Understudy 的 人 简称， 是 一 种 基于 N 
元 语法 的 、 已 经 被 国际 公认 的 机 器 翻译 评测 指标 。 


[2] 应 当 注 意 的 是 ， 训 练 语言 模型 的 语料库 还 应 当 保证 质量 。2011 
年 < 百度 ”在 开发 英汉 统计 机 器 翻译 系统 时 ， 开 始 时 使 用 1 000 万 句 的 英 
汉 双 语 语 料 ， 由 于 语 料 质量 不 高 ， 训 练 效 果 不 佳 ， 后 来 ， 他 们 把 训练 
语 料 精简 为 400 万 句 ， 训 练 效 果 反 而 提高 了 。 因 此 ， 在 训练 语料库 的 建 
设 中 ,除了 从 数量 上 扩大 语料库 的 规模 之 外 ， 还 应 当 特 别 重视 语料库 
的 质量 。 


[3] M. Nagao, A framework of a mechanical translation between 
Japanese and English by analogy principle, In Artificial and Human 
Intelligence, Sponsored by the Special Programme Panel, Held in Lyon, 
France, October, 1981, Elsevier Science Publishers, Amsterdam, Chapter 11, 
173-180, 1984. 


第 十 二 章 ”信息 目 动 检 索 


“信息 上 自动 检索 ” (automatic information retrieval) 主要 是 指 文 本 的 
信息 检索 。 信 息 检 索 系 统 的 任务 在 于 ， 对 于 用 户 提 出 的 提问 或 者 命 
题 ， 给 出 与 之 有 关 文 献 的 集合 ， 作 为 检索 的 结果 。 本 章 首先 介绍 信息 
检索 的 一 般 原 理 和 发 展现 状 ， 然 后 讨论 自然 语言 处 理 技术 与 信息 检索 
技术 之 间 的 关系， 说 明 如 何 使 用 目 然 语 言 处 理 所 得 到 的 形态 信息 、 短 
语 信息 、 句 法 信息 来 改进 信息 检索 中 的 索引 技术 ， 介 绍 了 不 同 的 观 
点 ， 指 出 了 当前 的 一 些 发展 趋 同 ， 最 后 介绍 语种 辨认 和 路 语言 信息 检 
索 o 


第 一 六 ”信息 检索 的 一 般 原理 和 发 
展现 状 


言 息 目 动 检索 可 以 从 不 同 的 角度 来 分 类 。 


按 计 算 机 存 迪 的 信息 内 容 的 表现 形式 ， 可 以 分 为 : 


(1) 数值 检索 : 计算 机 存 贮 的 信息 是 数值 ， 检 索 时 ， 要 搜索 数值 
质料 档 ， 并 针对 提问 输出 答案 。 


(2) 事实 检索 : 计算 机 存 贮 的 信息 是 各 种 事实 ， 检 索 时 ， 可 以 对 
被 检索 的 事实 作 菏 种 逻辑 推理 ， 进 行 比较 和 分 析 ， 然 后 再 输出 答案 。 


(3) 文献 检索 : 计算 机 存 贮 的 信息 是 文章 标题 、 著 隶 项目 和 由 关 
键 词组 成 的 文献 单元 ， 或 者 是 文献 的 全 文 ， 检索 时 ， 按 提问 检索 词 查 
找 文献 资料 档 ， 输 出 文献 题 录 、 文 草 摘要 或 文献 的 有 关 刻 段 。 


按 计算 机 存 迪 信息 内 容 的 时 间 ， 可 分 为 : 

(1) 现 刊 检索 : 检索 时 可 以 提供 当前 现 刊 上 的 信息 。 
(2) 追溯 检索 : 检索 时 可 以 追溯 若干 年 前 的 信息 。 
按 计算 机 检索 的 方式 ， 可 以 分 为 : 


(1) 脱 机 检索 : 检索 时 不 直接 进行 计算 机 操作 ， 利 用 计算 机 作 批 
处 理 。 


(2) 联机 检索 : 检索 时 利用 计算 机 直接 联机 进行 操作 ， 或 者 利用 
计算 机 的 近 程 或 远程 终端 进行 人 机 交互 。 


言 息 目 动 检索 开始 于 20 世 纪 50 年 代 初 期 。1954 年 ， 美 国 海军 军械 
实验 站 图 书馆 利用 IBM-701 电 子 计算 机 ， 建 立 了 世界 上 第 一 个 计算 机 信 
县 检索 系统 。1959 年 ， 美 国 的 户 恩 (H. P. Luhn) 利用 IBM-650 电 子 计 
算 机 ， 进 行 计 算 机 定 题 信息 检索 服务 。1960 年 ， 美 国 麻 省 理工 学 院 

(MIT) 开始 实施 有 关联 机 信息 检索 系统 的 “技术 信息 计划 ” (Technical 
Information Plan ， 简 称 TIP) 。1962 年 ， 美 国 系统 发 展 公 司 (System 
Development Company， 简 称 SDC) 在 全 文 检 索 系 统 Protosynthex 上 ， 进 
行 了 世界 上 最 早 的 联机 信息 检索 实验 。1964 年 ， 美 国 系统 发 展 公 司 研 
til] 成功 ORBIT ( On-line Retrieval of Bibliographic Information-Time 
Shared) 联机 信息 检索 软件 。 


20 世 纪 70 年 代 以 来 ， 联 机 信息 检索 有 了 进一步 的 发 展 ， 并 向 计算 
机 网 络 过 渡 。 联 机 信息 检索 系统 除了 上 述 的 ORBIT 之 外 ， 还 有 美国 国 
家 医学 图 书馆 的 MEDLINE 系 统 、 美 国 洛 克 希 德 公 司 的 DIALOG 系 统 。 
与 此 同时 ， 法 国 、 英 国 、 日 本 、 加 拿 大 也 先后 建立 了 联机 信息 检索 系 
统 。 如 欧洲 至 间 组 织 信息 检索 中 心 的 ESA-IRS 系 统 。 


进入 20 世 纪 70 年 代 以 后 ， 由 于 分 时 计算 机 、 带 终端 的 远程 处 理 系 
统 、 廉 价 的 大 容量 随机 存 迪 器、 分 组 交换 网 等 技术 的 迅速 发 展 ， 使 联 
机 信息 检索 由 内 部 试验 性 使 用 发 展 为 面向 公众 的 商业 性 服务 ， 
ORBIT、MEDLINE、DIALOG 等 系统 都 相继 投入 商业 性 运营 和 网 络 化 


服务 。 


20 世 纪 80 年 代 以 来 ， 由 于 个 人 微型 计算 机 的 普遍 使 用 ， 使 得 联机 
检索 的 用 户 从 各 种 中 间 人 转移 到 最 终 用 户 ， 即 自己 有 微型 机 算 机 的 经 
营 者 、 专 业 人 员 和 家 庭 ， 使 得 联机 信息 检索 进一步 提高 其 友善 性 和 易 
用 性 ， 各 种 对 用 户 友好 的 联机 信息 检索 系统 相继 出 现 ， 目 动 信息 检索 
系统 开始 进入 普通 人 的 家 庭 。 由 于 互联 网 (Web) 和 网 络 搜索 引擎 

(search engine) 的 发 展 ， 自 动 信息 检索 已 经 成 为 任何 一 个 上 网 工作 的 
普通 民众 获取 信息 的 基本 手段 。 


我 国 从 1963 年 开始 进行 机 械 信息 检索 的 研究 工作 。1965 年 进行 了 
机 械 信息 检索 试验 。20 世 纪 70 年 代 以 来 开始 研究 计算 机 信息 检索 。 
1975 年 进行 了 首次 计算 机 信息 检索 试验 。1977 年 进行 了 计算 机 联机 检 
索 试验 。 


1983 年 在 中 国 科 学 技术 信息 研究 所 建立 了 连接 美国 、 欧 洲 主 要 国 
家 的 数据 库 联 机 检索 系统 ， 这 个 系统 通过 意大利 的 ITALCABLE 分 组 交 
换 中 心 ， 连 接 到 欧洲 空间 组 织 的 ESA-IRS 系 统 ， 并 由 数据 交换 网 转 接 美 


国 的 DIALOG、ORBIT 系 统 ， 这 样 ， 我 国 束 可 以 在 北京 利用 通信 卫星 检 
索 到 欧美 200 多 个 数据 库 的 几 十 万 篇 文献 。 


当时 ， 不 少 单 位 建立 了 各 种 中 文 文献 库 ， 有 的 单位 研究 了 上 自动 标 
引 和 目 动 做 文摘 的 问题 。 全 国 科 技 信 息 部 门 配备 了 大 中 小 型 计算 机 ， 
建立 各 种 科技 文献 数据 库 、 事 实数 据 库 、 数 值 数据 库 ， 其 中 ， 中 文科 
技 文献 数据 库 累 计 记 录 量 约 为 150 万 条 。 


随 着 互联 网 和 搜索 引擎 的 普及 ， 信 息 检 索 也 更 加 受到 普通 老百姓 
的 欢迎 ， 联 网 搜索 信息 已 经 成 为 老百姓 日 常生 活 的 一 部 分 内 容 。 


言 轧 检索 系统 的 核心 工作 是 标 引 (indexing) ° PAAS”, WME 
对 所 收集 的 文献 给 出 其 标识 引 寻 ， 如 文献 标题 、 作 者 名 、 分 类 号 、 主 
题词 、 关 键 词 等 。 以 往 知 人 工 标 引 ， 费 时 费力 ， 标 引 的 一 致 性 老 ， 使 
标 引 作业 全 部 或 部 分 实现 自动 化 的 过 程 ， 就 是 目 动 标 引 (automatic 


indexing) o 


早 在 1957 年 ， 卢 恩 (H.P. Luhn) 就 在 IBM 公 司 的 研究 刊物 上 发 表 
了 第 一 篇 关于 自动 标 引 的 文章 ， 题 目 叫做 “文献 处 理 机 械 化 编码 和 检索 
用 的 统计 学 方法 ”， 首 次 提出 了 基于 统计 的 文献 处 理 和 目 动 化 系统 的 概 
念 。1958 年 ， 巴 森 代 尔 (PB. Baxendale) 进行 了 自动 标 引 和 自动 文摘 
的 研究 ， 提 出 了 从 文献 中 自动 抽取 代表 文献 内 容 的 词 和 句子 的 方法 。 


20 世 纪 60 年 代 ， 埃 德 蒙 森 (H. P. Edmundson) 、 厄 尔 (L. Earl) 分 
别 进行 自动 标 引 试验 ， 陕 尔 顿 (G. Salton) 建立 了 自动 标 引 系统 
SMART， 进 行 了 长 期 的 试 难 ， 取 得 了 丰 军 的 实验 数据 。20 世 纪 70 年 
代 ， 英 国 、 德 国 等 西欧 国家 也 开始 了 目 动 标 引 的 研究 ， 人 们 开始 注意 
与 自动 标 引 有 关 的 句法 和 语义 问题 。20 世 纪 80 年 代 初 ， 东 方 汉字 文化 
圈 的 自动 标 引 研究 也 开始 活跃 起 来 ， 自 动 标 引 的 方法 进一步 多 样 化 ， 


语言 学 方法 进一步 在 自动 标 引 中 得 到 应 用 ， 人 工 智能 、 模 式 识别 、 专 
家 系统 等 新 技术 逐步 引入 自动 标 引 的 领域 。 


我 国 在 20 世 纪 70 年 代 来 期 开始 探讨 汉语 文献 的 目 动 标 引 问题 , “七 
五 ”期 间 〈 即 “第 七 个 五 年 计划 ?期 间 ) 先后 建立 了 一 批 试验 性 的 自动 标 
引 系 统 。 如 上 海 交 通 大 学 王 永 成 等 研制 的 基于 汉字 部 件 词典 的 中 文 篇 
名 目 动 标 引 系统 ， 北 京 大 学 图 书馆 系 人 研制 的 基于 规则 和 词典 的 中 文 文 
献 目 动 标 引 系统 ， 中 国 软件 扩 术 服务 总 公司 吴 请 天 等 癸 制 的 基于 非 用 
字 后 弘 表 法 的 中 文 文献 目 动 切 词 标 引 系统 (EHE SE e TRIES AS BE X 
标 引 词 的 字 ， 如 “其 、 起 、 且 、 首 ?等 ， 而 “用 字 ? 征 指 那 些 可 以 做 标 引 词 
的 字 ， 抽 词 时 ， 如 果 为 用 字 则 抽取 ， 如 果 为 非 用 字 则 舍弃 ) 。 


广义 的 信息 自动 检索 还 包括 自动 文摘 (automatic abstracting) 和 文 
献 自 动 分 类 (automatic classification) 等 内 容 。 


文摘 是 文献 内 容 要 点 的 简要 描述 或 指示 。 所 谓 自 动 文摘 ， 就 是 利 
用 计算 机 自动 地 编制 和 生产 文摘 。 由 于 文献 量 的 急剧 增长 ， 合 格 的 文 
摘 员 供 不 应 求 ， 影 响 了 信息 报道 和 传递 的 及 时 性 ， 因 此 ， 学 者 们 开始 
研究 自动 编制 文摘 的 问题 。 卢 恩 1958 年 发 表 了 第 一 篇 有 关 自 动 制 作文 
献 文摘 的 论文 ， 开 自动 文摘 研究 之 先河 ， 他 还 建立 了 自动 文摘 系统 ， 
是 世界 上 第 一 个 用 计算 机 编制 文摘 的 学 者 。 接 着 ，IBM 公 司 为 美国 陆 
军 谍报 工作 助理 参谋 部 (ACSI) 开发 了 文摘 自动 编制 系统 ACSI- 
Matic， 并 投入 实用 。 此 外 ， 国 外 还 有 学 者 提出 了 采用 语义 网 络 和 基于 
语言 结构 提示 信息 的 自动 文摘 方法 。 


我 国 上 海 交 通 大 学 计算 中 心 在 IBM-5550 微 机 上 开发 出 一 个 自动 编 
制 中 文科 技 文献 文摘 的 试验 性 系统 。 这 一 系统 根据 巴 森 代 尔 提出 的 “大 
多 数 反 映 文 献 主要 内 容 的 句子 往往 出 现在 段 首 或 段 尾 ”以 及 埃 德 蒙 森 提 


出 的 “文献 的 篇 名 基本 上 能 反映 其 主题 内 容 ” 的 统计 性 结论 ， 把 包含 预 
置 关键 词 与 标题 关键 词 的 句子 从 文献 的 茶 些 重要 部 分 中 选 出 作为 文摘 
的 句子 ， 然 后 再 适当 地 把 这 些 句 子 组 织 成 文献 的 文摘 。 


目 动 编制 文摘 的 过 程 是 : 
构造 文献 的 关键 词 词典 〈 包 括 预 置 关键 词 和 标题 关键 词 ) ; 
人 从 文献 的 关键 词 中 选择 组 成 反映 该 文献 主题 的 文摘 句 ， 


(3 由 文摘 句 组 成 文献 的 文摘 ; 
(输出 文献 的 文摘 。 
目 动 编制 文摘 的 这 一 过 程 与 文摘 员 手 工 编制 文摘 的 过 程 大 致 相 


这 个 试验 性 目 动 文摘 系统 取得 了 令 人 鼓舞 的 结果 。 根 据 研 完 报 
告 ， 人 研究 人 员 曾 用 该 系统 对 随机 地 抽出 的 十 五 篇 文献 试 编 文摘 ， 发 现 
其 中 90% 的 文摘 句 与 作者 手工 编制 的 文摘 句 大 同 小 异 ， 只 有 两 、 三 篇 与 
手工 编制 的 文摘 差距 较 大 。 


目前 ， 上 自动 文摘 的 方法 基本 上 征 建立 在 统计 规律 的 基础 之 上 的 ， 
要 进一步 的 推动 自动 文 搞 方 法 的 研究 ， 必 须 对 所 搞 文献 进行 词汇 分 
析 、 语 法 分 析 和 语义 分 析 ， 并 对 结果 进行 综合 ， 这 些 都 需要 对 目 然 语 
言 的 词汇 、 语 法 语义 规律 进行 深入 的 研究 ， 充 分 地 利用 目 然 语言 计算 
机 处 理 的 者 成 果 和 新 方法 ， 使 目 动 文摘 工作 实现 智能 化 。 


广义 的 信息 目 动 检索 的 另 一 内 容 生 文献 目 动 分 类 ， 也 束 是 利用 计 
算 机 对 一 批 作为 实体 或 对 象 的 文献 进行 分 类 。 文 献 自动 分 类 有 利于 文 


献 的 快速 查找 。 统 计 实 验 表 明 ， 如 采 一 个 文献 集合 家 分 为 n 类 ， 则 其 得 
找 速 度 平 均 就 可 提高 n 倍 。 文 献 的 手工 分 类 是 一 项 芝 琐 而 又 带 有 很 强 的 
主观 性 局 限 性 的 工作 ， 既 费时 又 费力 ， 因 此 ，20 世 纪 60 年 代 初 ， 国 外 
束 开 始 了 文献 目 动 分 类 的 研究 。 我 国 上 海区 通 大 学 计算 中 心 在 也 M- 
5550 微 机 上 人 研制 了 一 个 试验 性 的 中 文科 技 文 献 目 动 分 类 系统 。 这 一 系 
统 根 据 埃 德 壹 森 近 出 的 “文献 篇 名 基本 上 能 反映 其 主题 内 容 * 的 统计 结 
iE, 采用 文献 篇 名 作为 原始 分 类 对 象 ， 以 加 权 的 题 中 关键 词 作为 分 类 
的 基础 ， 统 计 分 析 了 文献 篇 名 中 的 关键 词 ， 归 纳 出 大 约 300 个 基本 类 主 
题词 ， 构 成 类 主题 词 表 。 


文献 目 动 分 类 的 过 程 是 : 
(从 文献 篇 名 中 目 动 抽取 类 主题 词 ; 


根据 样本 文献 构造 分 类 用 的 类 主题 词 表 ; 


(3 根据 从 文献 中 抽出 的 类 主题 词 与 其 类 主题 词 表 决定 类 目 。 


当时 ， 用 户 利用 这 一 系统 在 IBM-5550 微 机 上 对 一 篇 文献 进行 分 类 
所 需 的 时 间 不 到 一 秒 钟 ， 该 系统 对 上 海 图 书馆 《全 国 报 刊 索引 》 收 录 
的 1 000 多 篇 有 关 计 算 机 的 文献 进行 自动 分 类 试验 ， 上 自动 分 类 的 结果 与 
人 工分 类 的 结果 有 74% 是 相符 合 的 。 


现行 的 信息 自动 检索 系统 ， 大 多 数 都 是 检索 文献 目录 库 和 文摘 ， 
这 类 检索 系统 所 获得 的 信息 有 很 大 的 局 限 性 ， 如 果 用 户 在 检索 之 后 ， 
还 希望 获得 所 检索 出 记录 的 全 面 而 详细 的 信息 ， 往 往 还 要 按 检索 到 的 
文献 索引 号 ， 再 到 书库 中 去 进一步 翻阅 、 摘 引 大 量 的 原文 文本 ， 为 了 
解决 这 个 问题 ， 学 者 们 提出 了 全 文 信息 自动 检索 (automatic retrieval of 
fulltext) ， 简 称 全 文 检索 。 


根据 文件 的 组 织 形 式 ， 数 据 存 贮 与 检索 技术 的 发 展 大 致 经 历 了 三 


个 阶段 。 


第 一 个 阶段 使 用 顺序 检索 方法 ， 文 件 组 织 只 有 一 个 主 文件 和 一 个 
查询 文件 ， 检 索 时 ， 主 文件 的 每 一 个 记录 (文献 本 身 ) 与 查询 文件 的 
每 一 个 记录 (提问 式 ) 逐个 进行 比较 ， 然 后 成 批 输出 结果 。 这 是 一 种 
典型 的 批 处 理 方式 。 由 于 检索 速度 慢 ， 又 不 能 随时 改变 检索 的 集 上 略 ， 
这 种 顺序 检索 方法 已 经 被 淘汰 。 


第 二 个 阶段 使 用 顺序 检索 与 倒 排 检索 相 结合 的 检索 方法 ， 全 部 文 
件 由 一 个 主 文件 和 有 限 个 检索 点 生成 的 若干 个 倒 排 文件 组 成 ， 处 理 方 
式 由 批 处 理 方式 发 展 到 联机 检索 方式 ， 检 索 时 ， 用 户 分 别 要 提出 两 个 
提问 式 ， 第 一 个 提问 式 必须 由 具有 倒 排 文件 的 检索 点 组 成 。 第 二 个 提 
问 式 由 其 他 非 倒 排 文 件 的 检索 点 组 成 。 这 种 检索 方法 的 缺点 是 : 快速 
检索 点 很 有 限 ， 没 有 检索 命令 语言 ， 如 来 第 一 个 检索 命中 的 文献 集 较 
大 ， 则 第 二 次 检索 融 要 伦 较 多 的 时 间 。 


20 世 纪 70 年 代 末 期 ， 西 文 检索 技术 发 展 到 第 三 阶段 ， 这 一 阶段 文 
件 的 组 织 特点 是 : 文件 记录 的 全 部 字段 都 可 以 倒 排 ， 主 文件 的 记录 采 
用 可 变 长 存 贮 ， 并 且 使 用 效率 更 高 的 索引 文件 《如 VSAM，ISAM，B 
树 等 ) ， 用 户 可 对 任何 字段 、 子 字段 进行 快速 查找 ， 并 可 使 用 丰富 的 
检索 命令 语言 来 随时 修改 检索 策略 。 


随 看 计算 机 存 贮 设备 价格 的 降低 以 及 检索 技术 的 进步 ， 产 生 了 全 
文 检索 。 全 文 数据 库 的 建立 和 全 文 检 索 功 能 的 实现 是 全 文 检 索 的 两 大 
技术 支持 。 全 文 数 据 库 一 般 由 一 个 变 长 的 主 文件 和 一 个 索引 文件 控制 
下 的 倒 排 文件 组 成 ， 索引 文件 和 倒 排 文件 在 物理 上 是 分 开 的 。 检 索 
时 ， 由 索引 文件 指 同 倒 排 文件 ， 倒 排 文件 指 网 主 文 件 。 


主 文件 中 一 般 定 义 了 以 下 几 种 数据 类 型 的 字段 : 


一 一 文本 型 字段 (text) : 适用 于 由 才干 段落 和 句子 组 成 的 文本 ， 
如 普通 书信 、 论 文 、 文 摘 、 产 品 说 明 书 等 。 


短语 型 字段 (phrase) : 适用 于 由 若干 段落 或 句子 组 成 的 文 
本 ， 如 论文 标题 、 书 名 、 人 名 、 地 址 、 产 品名 等 。 


一 一 数字 型 字段 (number) : 适用 于 数值 信息 ， 每 一 个 数字 可 分 


一 一 日 期 型 字段 (date) 。 


一 一 时 间 型 字段 (time) ° 


全 文 索引 与 全 文 检索 主要 是 针对 文本 型 字段 和 短语 型 字段 而 言 ， 
后 三 种 字段 则 按 整 个 字段 或 子 字 段 被 索引 。 


在 全 文 检 索 系 统 中 ， 文 本 的 每 一 个 单词 都 可 以 作为 索引 词 标 引 和 
检索 ， 检 索 时 不 再 受 主题 词 的 限制 ， 打 破 了 主题 词 的 束缚 ， 从 而 可 对 
原文 的 整个 文本 中 的 任何 词语 进行 检索 ， 扩 展 了 用 户 查 询 的 自由 度 ， 
为 大 容量 和 大 范围 的 数据 资料 的 检索 提供 了 有 效 的 工具 。 目 前 ， 随 着 
计算 机 软件 技术 的 进步 ， 全 文 检索 系统 的 建 六 有 了 极为 民 好 的 条 件 。 
全 文 检索 系统 的 存 迪 内 容 ， 既 包括 文献 的 全 文 ， 又 包括 文摘 以 及 著录 
事项 (论文 标题 、 书 名 、 人 和 名、 地 址 、 产 品名 、 数 字 、 日 期 、 时 间 
等 ) ， 可 使 用 户 迅 速 准确 地 从 浩如烟海 的 文献 中 ， 直 接 获取 有 关 记 载 
或 论述 的 文字 ， 从 而 以 最 少 的 努力 得 到 他 们 所 希望 的 实质 性 的 数据 。 


近年 来 ， 国 外 全 文 数据 库 的 数目 不 断 增加 。 例 如 ， 美 国 的 DIALOG 
信息 检索 系统 在 1983 年 的 228 个 数据 库 中 ， 全 文 检 索 数据 库 仅 有 7 个 ， 


占 总 量 的 3%， 至 今 为 止 ，DIALOG 系 统 的 数据 库 总 量 为 345 个 ， 其 中 全 
文 检索 数据 库 为 86 个 ， 占 总 量 的 25%。 


我 国 的 全 文 检索 研究 开始 于 20 世 纪 80 年 代 中 期 。1986 年 ， 武 汉 大 
学 开始 接受 国家 教委 文科 博士 点 科研 项 目 “ 湖 北 省 地 方志 全 文 检索 系 
统 ”， 建 立 了 “湖北 省 地 方志 大 事 记 ”和 “中 国人 民 解 放 军 大 事 记 ”两 个 全 
文 数据 库 。 接 着 ， 北 京 文献 服务 处 (BDS) 人 研制 了 “基于 自然 语言 处 理 
的 中 文 信息 检索 和 处 理 系 统 CIRPON”， 用 于 BDS 的 文献 自动 标 引 和 文 
摘自 动 处 理 ， 文 献 标 引 的 查 全 率 和 查 准 率 大 体 上 相当 于 手工 标 引 的 质 
量 。1990 年 初 ， 北 京 信息 工程 学 院 与 人 民 日 报社 合作 开发 了 全 文 检索 
系统 Biti FTRS (Full Text Retrieval System 的 简称 ) ,在 人 民 日 报 开始 使 
用 ， 并 已 实现 了 商品 化 。 山 西 大 学 计算 机 科学 系 使 用 了 自动 切 词 、 自 
动 分 类 、 自 动词 性 标注 等 自然 语言 处 理 技术 ，1991 年 研制 了 “中 文 全 文 
检索 软件 系统 ”， 现 已 被 南京 金陵 石化 总 公司 精细 石化 文献 检索 系统 和 
山西 省 政府 办 公 厅 和 太原 市 政府 办 公 厅 信息 处 理 系统 采用 。 电 子 部 计 
算 机 与 微 电 子 技术 发 展 研究 中 心 (CCID) 中 文 信息 处 理 开放 实验 室 
(CIPOL) 研制 了 中 文 全 文 检索 系统 TIR， 该 系统 可 以 对 各 种 文本 型 资 
料 和 某 些 数据 库 的 文件 进行 操作 ， 避 免 了 传统 检索 系统 只 能 检索 主题 
词 ， 而 对 主题 词 之 外 的 信息 无 能 为 力 的 局 限 。 该 系统 现在 能 够 检索 一 
切 输入 文本 ， 对 原始 文献 里 的 字符 无 特别 限制 ， 可 以 处 理 各 种 通用 的 
字符 。 此 外 ， 上 海 交 通 大 学 建立 了 “法 律 条 目 全 文 数据 库 ”"， 陕 西 省 中 
医 研究 院 建立 了 中 医 经 典 古 籍 《 素 问 》、《 灵 枢 》、《 甲 忆 》、《 难 
经 》 的 全 文 数据 库 ， 江 苏 省 中 医 研 究 所 建立 了 《伤寒 论 》、《 金 匮 要 
上 略 》、《 脾 胃 论 》 等 20 余 本 中 医 古 籍 的 全 文 数据 库 ， 深 圳 大 学 建立 了 
古典 文学 名 著 《 红 楼 梦 》 的 全 文 数据 库 。 所 有 这 些 全 文 数据 库 都 对 用 
户 提供 了 有 效 的 检索 服务 ， 也 为 汉字 全 文 检索 系统 的 进一步 发 展商 定 
了 基础 。 


全 文 文本 检索 是 西 文 信息 检索 软件 普遍 实现 的 基本 功能 。 瑞 典 的 
PROLOG 公 司 人 研制 的 TRIP 全 文 检 索 软 件 具有 全 面 的 全 文 文本 检索 功 
能 。1988 年 ， 中 国 科 技 信息 研究 所 与 该 公司 合作 ， 实 现 了 TRIP 系 统 的 
汉化 。 汉 化 TRIP 系 统 的 特点 是 :以 每 个 汉字 单字 切 分 (最 简单 的 汉语 
书面 语 自动 切 分 ) 实现 全 文 检索 功能 ， 可 按 字 段 (人 作者、 标题、 分 
类 、 日 期 、 标 引 词 等 检索， 可 用 命令 方式 和 菜单 方式 检索 ， 可 在 主 
题词 控制 下 进行 检索 。 这 一 系统 的 缺点 是 空间 开销 偏 高 ， 不 能 自动 抽 
出 关键 词 。 目 前 这 一 系统 只 能 在 VAX/VMS 计 算 机 上 运行 ， 有 一 定 的 局 
限 性 。 该 系统 已 在 中 国 科技 信息 研究 所 用 于 建立 “中 国学 术 会 议论 文 数 
据 库 ?和 “中文 科技 期 刊 联合 目录 系统 ”， 又 被 北方 交通 大 学 用 来 为 经 济 
日 报 建立 了 “经 济 日 报 新 闻 资 料 检索 系统 ”。 汉 化 TRIP 全 文 检 索 系 统 的 
开发 和 应 用 ， 为 中 文 全 文 文本 的 检索 提供 了 可 行 的 技术 途径 和 有 益 的 
实践 经 验 。 如 有 果 以 汉化 TRIP 全 文 文本 检索 系统 为 基础 ， 在 系统 的 存 贮 
部 分 适当 地 增加 关键 词 自 动 抽 词 功 能 ， 在 系统 的 检索 部 分 适当 增加 后 
控 主题 词 表 的 管理 和 检索 功能 ， 将 大 大 地 提高 这 一 软件 对 中 文 全 文 检 
索 的 适应 能 力 。 


随 着 大 量 文献 的 出 版 和 互联 网 的 普及 ， 文 档 的 数量 与 日 俱 增 。 以 
互联 网 上 的 网 页 文档 为 例 ， 据 统计 ，1995 年 全 世界 大 约 有 5 和 于 万 个 页 面 
文档 ，1997 年 增加 到 3 亿 2 于 万 个 页 面 文档 ，1999 年 增加 到 8 亿 个 页 面 文 
档 ，2000 年 增加 到 10 亿 个 页 面 文档 。 而 且 ， 大 多 数 文档 数据 都 是 无 序 
的 、 非 结构 化 的 ， 文 档 数 据 中 不 仅 包 售 文 字 信息 ， 而 且 还 包含 图 像 信 
息 、 图 形 信息 、 音 频 信息 、 视 频 信 息 。 文 档 数 量 的 急剧 增加 和 多 样 化 
是 对 于 信息 检索 技术 的 严重 挑战 。 


为 了 匹配 索引 的 查询 表达 形式 并 检索 出 最 相关 的 文档 ， 信 息 检索 
系统 通常 采用 以 下 三 种 基于 统计 的 匹配 技术 : 布尔 模型 (Boolean 


Model, ， 简 称 BM) 、 癌 量 空 间 模 型 (Vector Space Model, ， 简 称 
VSM) 、 概 率 模型 (Probabilistic Model， 简 称 PM) 。 


在 布尔 模型 中 ， 查 询 表述 为 用 布尔 逻辑 运算 符 (如 “or，not， 
and” 等 ) 连接 起 来 的 关键 词 。 由 于 其 语义 上 的 准确 性 ， 使 得 这 种 方法 
在 计算 上 有 着 效率 和 速度 上 的 优势 。 许 多 商业 机 构 都 采用 了 这 个 方 


法 。 


但 是 这 种 方法 在 文档 检索 中 采取 的 是 二 元 决定 论 ， 检 索 系 统 只 能 
够 决定 检索 对 象 与 文档 是 相关 还 古 不 相关 ， 从 而 使 其 无 法 给 用 户 一 个 
分 级 更 为 合理 的 答案 。 例 如 ， 如 末 把 两 个 关键 词 用 “and” 运 算 符 连 接 起 
来 ， 就 意味 着 检索 出 的 文档 必须 同时 含有 这 两 个 关键 词 。 由 于 布尔 模 
型 是 基于 精确 匹配 的 ， 用 户 很 难 表 达 复 杂 的 检索 有 要求， 第 遂 为 怎样 将 
复杂 的 信息 需求 转换 成 合适 的 关键 词 和 布尔 逻辑 运算 符 而 感到 困惑 。 


在 问 量 空间 模型 中 ， 文 档 和 检索 查询 通常 使 用 n 维 空间 中 的 癌 量 
(vector) 表示 ， 检 索 系 统计 算 查 询 向 量 和 所 有 文档 向 量 之 间 的 相似 
度 ， 并 且 按 照相 似 度 的 大 小 对 文档 进行 排序 分 级 ， 最 后 返回 给 用 户 。 


癌 量 空间 模型 和 布尔 系统 的 主要 区 别 在 于 ， 癌 量 空 间 模型 能 够 根 
据 文 档 与 待 查 询 信息 的 相关 程度 来 排序 和 分 级 ， 从 而 给 出 参考 性 更 强 
的 查询 结果 。 


向 量 空 间 模型 认为 ， 与 查询 最 为 相关 的 文档 是 那些 在 用 词 规律 方 
面 与 查询 类 似 的 结 末 。 在 同 量 空间 中 ， 这 种 相关 性 可 以 通过 文档 癌 量 
与 查询 向 量 之 间 的 距离 的 大 小 来 衡量 ， 如 果 某 个 文档 向 量 与 查询 向 量 
之 间 的 距离 最 小 ， 就 可 以 认为 这 个 文档 与 查询 最 为 相关 。 按 照 文档 辐 
量 与 查询 向 量 之 间距 离 的 大 小 进行 分 级 排序 ， 把 与 查询 最 相关 的 文档 


排 在 最 前 面 ， 这 样 ， 束 可 以 根据 据 用 户 的 要 求 ， 返 回 从 完全 不 匹配 到 
部 分 匹配 的 查询 结 


相似 性 的 计算 采用 的 是 TF IDF 加 权 法 。 


TF 指 的 是 检索 词 频 率 (Term Frequency， 简 称 TF) ， 它 表示 检索 
词 在 多 大 程度 上 代表 了 文档 的 内 容 ， 如 果 某 个 检索 词 的 频率 越 大 ， 怠 
说 明 这 个 检索 词 较 好 地 反映 了 文档 的 内 容 ， 检 索 词 频率 属于 文档 的 内 


部 信息 。 


IDF 则 是 逆向 文档 频率 (Inverse Document Frequency) ， 它 表示 文 
档 聚 类 与 整个 聚 类 之 间 的 相差 的 程度 。 


从 语言 学 的 角度 来 看 ， 我 们 可 以 把 文档 中 所 有 的 词 分 为 非 焦点 词 
和 焦点 词 两 类 。 所 请 非 焦点 词 ， 就 是 那些 在 所 有 文档 中 都 可 能 出 现 ， 
甚至 在 所 有 文档 中 都 具有 相似 的 分 布 规律 的 词 ， 在 信息 检索 中 ， 这 样 
的 词 对 于 衡量 文档 之 间 的 相似 性 意义 不 大 。 所 谓 焦点 词 ， 就 是 那些 出 
现 范围 比较 狭 罕 的 词 ， 它 们 在 所 有 的 文档 中 分 布 不 均 习 ， 在 有 的 文档 
中 出 现 频率 高 ， 而 在 另外 的 一 些 文档 中 的 出 现 频率 则 很 微乎其微 ， 这 
一 类 焦点 词 对 于 衡量 两 个 文档 是 否 相关 是 很 有 价值 的 。 对 于 文档 而 
言 ， 焦 点 词 显然 比 非 焦点 词 在 信息 上 更 加 具有 价值 。 我 们 可 以 使 用 文 
档 频率 (Document Frequency， 简 称 DF) 来 描述 检索 词 在 文档 中 出 现 
频率 的 高 低 的 这 个 特征 ， 如 果 一 个 检索 词 的 文档 频率 越 低 ， 则 表明 它 
很 可 能 属于 焦点 词 ， 在 信息 检索 中 具有 较 高 的 价值 ， 如果 一 个 检索 词 
的 文档 频率 越 高 ， 则 表明 它 和 可 能 属于 非 焦点 词 ， 在 信息 检索 中 价值 
不 大 。 在 实际 计算 文档 权重 的 时 候 ， 为 了 计算 上 的 方便 ， 我 们 不 采 
用 “文档 频率 "DF， 而 采用 “逆向 文档 频率 ”IDF 。 


“逆向 文档 频率 ?TDF 的 计算 公式 是 : 


IDF = log =) 
DF 


其 中 ，N 赴 文档 库 中 文档 的 总 数 ，DEF 十 文档 频率 。 用 DF 来 除 N 再 
取 对 数 ， 得 到 的 IDF 恰 好 能 够 反映 检索 词 在 文档 中 出 现 频率 的 高 低 的 这 
TREE S 


如 琳 一 个 检索 词 仅 只 出 现在 一 个 文档 中 ， 那 么 ， 我 们 有 


N N 
IDF = lo [ = lo t = loo N 
8 DF 8 1 8 


这 时 ，IDF 的 值 很 大 ， 权 重 也 最 大 ; 


如 有 条 一 个 检索 词 出 现在 所 有 的 文档 中 ， 那 么 ， 我 们 有 


N N 
IDF = lo P3 = lo [元 = log1 =O 
g DF B N 5 


这 时 ，IDF 的 值 为 等 ， 权 重 最 小 。 


在 信息 检索 中 ， 我 们 采用 检索 词 频 率 TF 与 逆向 文档 频率 IDF 的 乘积 
TF*IDF 进 行 加 权 ， 这 就 是 TF*IDF 加 权 法 。 这 种 加 权 法 综合 地 考虑 了 检 
索 词 频率 和 逆向 文档 频率 ， 这 是 向 量 空间 模型 中 一 种 行 之 有 效 的 加 权 
方法 。 


向 量 空间 模型 的 优点 在 于 : (1) 由 于 采用 了 加 权 法 ， 提 高 了 信息 
检索 的 效率 ; (2) 根据 相关 程度 得 出 的 分 级 文档 ， 提 供 了 从 全 匹配 到 
部 分 匹配 的 查询 结 


向 量 空间 模型 的 数学 形式 简洁 ， 计 算 速 度 快 ， 在 信息 检索 中 得 到 
广泛 的 使 用 。 


概率 模型 是 一 种 基于 概率 论 而 建立 的 查询 和 文档 的 形式 化 模型 。 
这 种 概率 模型 假定 有 一 个 理想 的 答案 集 ， 我 们 能 根据 这 个 理想 的 答案 
集 ， 检 索 出 与 之 最 为 接近 的 一 组 文档， 作为 检索 的 结果 。 在 概率 模型 
中 ， 查 询 过 程 可 以 想象 成 一 个 对 理想 答案 集 属性 的 描述 过 程 ， 而 结 
的 属性 则 由 索引 特征 的 语义 构成 。 


但 是 ， 在 使 用 概率 模型 的 时 候 ， 当 用 户 开始 查询 时 并 不 知道 理想 
答案 集 的 属性 有 哪些 ， 所 以 需要 先 对 属性 值 进行 估计 。 


概率 模型 的 主要 优点 是 检索 到 的 所 有 文档 是 根据 相关 概率 排序 
的 。 其 主要 的 不 足 是 : (1) 系统 需要 预先 对 相关 和 不 相关 的 文档 之 间 
的 差别 有 一 个 估 值 。 (2) 这 个 方法 并 没有 考虑 到 文档 内 部 检索 词 的 频 
率 特征 。 


除了 上 壕 三 种 主要 的 理论 模型 以 外 ， 还 有 许多 其 他 的 改进 方法 。 
例如 ， 粗 烽 集 模型 、 扩 展 的 布尔 模型 、 贝 叶 斯 网 络 模 型 、 推 理 网 络 模 
型 、 信 和 念 网 络 模 型 、 潜 在 语义 索引 模型 (Latent Semantic Indexing, {fi 
称 LSI) 5$ ° ZEE o 


信息 检索 系统 不 可 能 把 所 有 相关 的 文档 都 检索 出 来 ， 也 不 能 保证 
检索 出 来 的 所 有 结果 都 与 用 户 的 查询 意图 有 关 。 因 此 ， 需 要 对 信息 检 
索 系 统 进行 评测 。 


言 息 检 索 系统 的 评价 指标 主要 有 :， 准确 率 或 查 准 率 (precision) , 
召回 率 或 查 全 率 (recall) ， 判 误 率 (fallout) 以 及 FE 系数 (F- 


measure) 3 


准确 率 或 查 准 率 描述 系统 返回 的 检索 结果 中 究竟 有 多 少 文档 是 真 
正 相关 的 ， 也 被 称 为 正确 度 (accuracy) ， 用 P 来 表示 。 准 确 率 或 查 准 
率 由 下 面 的 公式 来 计算 : 


准确 率 p 恰 索 结果 中 与 查询 / 检索 结果 中 
相关 的 文档 数 /的 文档 总 数 
召回 率 或 查 全 率 描述 在 文档 库 所 有 相关 的 文档 中 究竟 有 多 少 文档 
外 Q 系 统 检索 出 来 ， 它 是 对 系统 从 所 有 的 文档 中 抽取 了 多 少 相 关 信 息 的 
EE, HAM ASN Bm (coverage) 的 度量 ， 用 R 来 表示 。 召 回 率 
或 查 全 率 由 下 面 的 公式 来 计算 : 


检索 结果 中 与 查询 /文档 库 中 与 查询 
相关 的 文档 数 / 相关 的 文档 总 数 
判 误 率 描述 文档 库 中 被 错误 地 检索 出 来 的 所 有 不 相关 的 文档 数 ， 
它 是 对 系统 忽略 文档 中 错误 信息 的 能 力 进 行 度 量 的 系数 ， 误 判 率 由 下 
面 的 公式 来 计算 : 


召回 率 R = 


判 误 率 -检索 结果 中 与 查询 文档 中 所 有 与 文档 
不 相关 的 文档 数 / 不 相关 的 文档 数 
准确 率 和 召回 率 之 间 并 不 互相 独立 ， 而 是 相互 制约 的 。 如 果 想 增 
加 召回 率 ， 就 必须 多 返回 一 些 检 索 结果 ， 以 便 使 检索 结果 中 多 包含 一 
些 相 关 的 文档 ， 这 往往 会 导致 准确 率 的 下 降 。 如 采 想 增加 准确 率 ， 整 
必须 限制 检索 相关 性 的 条 件 ， 使 得 一 些 相 关 的 文档 被 排除 出 去 ， 这 往 
往 会 导致 召回 率 的 下 降 。 


在 这 种 情况 下 ， 我 们 可 以 使 用 准确 率 和 召回 率 相 结合 的 度量 系数 
来 评测 信息 检索 系统 的 性 能 ， 这 个 系数 叫做 F 系 数 。 在 F 系 数 中 ， 利 用 
参数 来 平衡 准确 率 P 和 召回 率 R。F 系 数 由 下 面 的 公式 来 计算 : 


| (B. +1)PR 
0 B@PHR 


在 这 个 公式 中 ， 当 Bp 等 于 1 时 ， 表 示 我 们 给 准确 率 和 召回 率 相 同 的 
权重 。 当 B 大 于 1 时 ， 表 示 我 们 偏爱 准确 率 ， 而 当 B 小 于 1 时 ， 表 示 我 们 
MEAE o 


F 


在 一 般 情 况 下 ， 我 们 应 当 公平 地 对 待 准确 率 和 召回 率 ， 给 它们 相 
同 的 权重 ， 所 以 ， 我 们 通常 令 B 等 于 1， 这 样 ， 上 面 的 公式 变 为 如 下 的 
ÉR: 

2PR 
F 一 


=j eom 
P+R 
这 是 一 个 简化 了 的 计算 F 系 数 的 公式 。 


为 了 鼓励 后 续 的 研究 ， 美 国 的 一 些 机 构 举 办 了 扩展 信息 检索 测试 
和 比较 的 项 目 ， 其 中 最 有 名 的 是 文本 检索 会 议 (Text Retrieval 
Conference， 人 简称 TREC) ° 


TREC 源 自 1991 一 1998 年 的 TIPSTER 项 目 。 该 项 目 包括 文本 检测 ， 
言 息 提 取 和 文本 摘要 三 个 技术 领域 。 文 本 检测 强调 系统 对 用 户 所 需 文 
件 类 型 的 定位 和 检索 能 力 ， 不 管 是 静态 文本 还 是 动态 数据 流 。1992 
ee 家 标准 与 技术 委员 会 (National Institute of Standards and 
technology, {Hi PX NIST) 和 美 防 高 级 技术 研究 局 (Defense 
Advanced Research Projects Agency， 人 简称 DARPA) 举办 了 首次 TREC 大 
会 。TREC 的 最 初 目的 就 是 为 TIPSTER 项 目的 文本 检测 开发 评测 技术 ， 
其 重点 是 为 了 处 理 大 型 英语 文本 语 料 。 近 年 来 ，TREC 补 推广 到 汉语 、 


日 语 以 及 欧洲 其 他 语言 。 至 于 其 他 的 语言 ， 如 塔 米尔 语 和 马 来 语 则 可 
能 会 继续 为 路 语言 信息 检索 提供 更 大 的 发 展 空间 。 现 在 ， 有 许多 欧洲 
组 织 和 研究 所 也 采用 了 上 述 标准 。 例 如 ， 跨 语言 评估 论坛 (Cross- 
Language Evaluation Forum, (Bj CLEF) 


近来 ， 跨 语言 和 多 语言 信息 检索 技术 也 有 了 国际 化 发 展 的 倾 同 ， 
详 细 情 ue 可 参 看 
http://www.galileo.iei.pi.cnr.it/DELOS/CLEF/clef.html ° E 20004F F 4a H*J 
DARPA 的 TIDES ( Translingual Information Detection, Extraction and 
Summarization) 项 目 在 信息 检索 和 描述 过 程 中 运用 了 语言 学 和 非 语言 
学 的 方法 ， 这 些 方法 对 多 语言 信息 的 获得 起 了 很 大 的 推动 作用 。 


第 二 有 “信息 目 动 检索 与 目 热 语言 
处 理 技术 


有 的 学 者 指出 ， 目 前 信息 目 动 检索 系统 目前 正 同 智能 化 方 癌 发 
展 ， 有 必要 进一步 采用 自然 语言 处 理 技术 来 改进 自动 信息 检索 的 效 
Ha 


例如 ， 中 文 的 全 文 检 索 系统 有 的 按 字 检索 ， 有 的 按 词 检索 。 以 词 
作为 检索 的 基本 单元 ， 标 引 与 检索 的 着 眼 点 是 体现 相对 独立 完整 概念 
的 词 ， 比 较 符 合 人 们 的 思维 习惯 。 从 上 自然 语言 处 理 的 角度 来 看 ， 信 息 
检索 系统 既然 是 以 概念 为 基本 单位 的 系统 ， 而 概念 在 自然 语言 中 的 代 
表 应 该 是 词 而 不 是 字 ， 有 的 汉字 本 身 并 不 能 直接 表示 完整 的 概念 ， 例 
如 ,，“ 蜂 蛛 ” 这 个 单词 中 的 汉字 “ 蜂 ”*"， 就 古 不 能 表达 完整 的 概念 ， 它 只 有 
与 男 一 个 汉字 “ 蛛 ” 结 合 起 来 ， 才 能 表达 完整 的 概念 。 久 如， 用 户 想 检 


索 与 单词 “目的 ?相关 的 信息 ， 如 采 只 是 单独 根据 汉字 “ 目 ” 和 汉字 “的 ”来 
检索 ， 查 准 率 将 会 大 大 地 降低 。 因 此 ， 从 目 然 语言 处 理 的 原理 来 看 ， 
应 该 按 词 来 进行 检索 ， 而 不 是 按 字 来 进行 检索 。 当 然 ， 按 字 来 进行 检 
索 ， 具 有 实现 方法 简单 、 查 全 率 高 等 优点 ， 但 是 ， 随 着 数据 库容 量 的 
增加 ， 标 引 量 急骤 上 升 ， 耗 费 的 时 间 开 销 和 择 间 开销 都 很 天， 检索 的 
速度 也 比较 低 ， 如 采 按 词 来 检索 ， 通 过 对 检索 词语 的 后 控 处 理 ， 就 可 
以 大 大 地 提高 检索 效率 ， 男 外 ， 在 全 文 检索 系统 中 ， 单 词 的 切 分 ， 同 
义 词 、 反 义 词 、 相 关 词 、 成 语 、 缩 略语 的 规范 和 控制 ， 都 要 借助 于 词 
表 ， 按 词 来 进行 检索 才 行 得 通 ， 此 外 ， 在 建造 领域 知识 库 和 策略 规则 
时 ， 也 只 能 按 词 来 检索 ， 才 有 一 个 坚实 的 语言 学 理论 基础 。 如 琳 按 词 
来 检索 ， 就 首先 要 使 用 自然 语言 处 理 技术 对 汉语 的 文本 进行 自动 切 词 
(word segmentation) ， 例 如 ， 要 检索 “和 服 ” 这 个 关键 词 ， 如 果 不 切 分 
汉语 文本 ， 很 可 能 会 得 出 “工作 方法 和 服务 态度 ”皮鞋 和 服 2" E 
ERER: WRIT T AA, 就 可 以 避免 这 样 的 和 错误。 因此， 
在 信息 检索 中 ， 使 用 自然 语言 处 理 的 原理 和 技术 是 很 有 必要 的 。 


又 如 ， 在 信息 目 动 检索 系统 中 ， 同 一 个 词 可 能 有 不 同 的 语义 和 表 
达 方 法 ， 而 相同 的 概念 可 用 不 同 的 词 来 表达 ， 因 此 ， 有 必要 使 用 语言 
学 知识 ， 根 据 系统 处 理 领 域 的 不 同 ， 建 立 起 同义词 、 近 义 词 、 反 义 词 
的 天 系 来 ， 这 实际 上 就 是 要 通过 概念 及 其 语义 关系 组 成 概念 语义 词 
典 。 这 样 ， 用 户 在 进行 检索 时 ， 就 可 以 不 必 考 虑 与 所 要 表达 的 概念 有 
关 的 一 切 词 ， 系 统 会 根据 检索 的 入 口 词 ， 自 动 地 在 概念 语义 词典 中 调 
出 与 之 有 关 的 词 ， 从 而 提高 信息 检索 系统 的 效用 。 


再 如 ， 文 献 语言 研究 的 深度 对 于 信息 目 动 检索 的 效率 也 有 很 大 的 
影响 。 在 词汇 方面 ， 如 采 深 入 地 分 析 文 献 的 主题 内 容 ， 从 文献 中 抽出 
足够 的 检索 词 ， 文 件 标 引 的 范围 束 比 较 大 ， 检 索 时 就 容易 把 相关 主题 
的 文献 碍 出 来 ， 从 而 提高 信息 检索 系统 的 查 全 率 。 如 果 突 出 检索 词 的 


专 指 性 ， 使 其 能 准确 地 揭示 文献 的 主题 内 容 ， 检 索 时 束 不 必 再 到 其 上 
位 词 或 其 他 专 指 性 较 低 的 词 中 去 查找 ， 从 而 提高 信息 目 动 检 索 系 统 的 
查 准 率 。 在 句法 语义 方面 ， 如 果 从 语言 学 的 角度 揭示 了 被 检索 文章 的 
主题 中 各 个 检索 词 的 句法 语义 天 系 ， 下 不易 造 成 误 检 。 


目前 ， 计 算 机 信息 检索 一 般 采 用 逻辑 式 来 提问 ， 这 给 用 户 带 来 许 
多 不 便 ， 因 为 许多 用 户 不 束 悉 逻辑 式 这样 的 不 目 然 的 提问 方式 。 如 有 宁 
计算 机 能 理解 自然 语言 的 含义 ， 让 用 户 直接 采用 自然 语言 提问 ， 建 立 
人 机 目 然 语言 接口 ， 殊 可 以 大 大 地 方便 用 户 ， 十 分 有 利于 计算 机 信息 
检索 的 推广 和 使 用 。 而 要 用 目 然 语言 直接 提问 ， 束 必须 把 目 然 语言 的 
句法 和 语义 加 以 形式 化 ， 深 入 地 进行 目 然 语言 理解 系统 的 研究 。 


办 此， 有 的 专家 认为 ， 在 信息 目 动 检索 系统 中 ， 应 当 充 分 地 使 用 
语言 学 的 知识 ， 采 用 自然 语言 处 理 的 技术 。 他 们 指出 ， 如 果 能 在 信息 
目 动 检索 系统 中 ， 充 分 地 利用 目 动 分 词 、 目 动词 性 标注 、 目 动 句 法 分 
析 、 上 自动 语义 分 析 等 自然 语言 处 理 技术 ， 就 可 以 提高 信息 自动 检索 的 
知 能 化 水 平 ” 


许多 应 用 于 信息 检索 的 上 自然 语言 处 理 方 法 都 是 使 用 语言 学 的 技术 
(如 词组 、 实 词 、 概 念 等 ) 来 获得 更 好 的 索引 词 项 。 这 些 方法 被 称 为 
语言 学 驱动 的 标 引 方法 ( Linguistically Motivated Indexing , 简称 
LMI) 。 引 入 语言 学 驱动 的 标 引 方法 ， 束 有 了 更 多 可 以 比较 的 特征 ， 这 
是 一 个 可 行 的 递增 式 方 法 。 


有 的 学 少 指 出 ， 引 入 一 些 位 单 搭配 的 特征 会 使 信息 检索 的 效率 近 


高 10%。 


有 的 学 普通 过 实验 证 明 ， 把 基于 癌 量 表示 的 词义 排 凡 算 法 应 用 于 
可 量 空间 模型 ， 根 据 上 下 文 来 进行 词义 排 歧 ， 可 以 把 信息 检索 的 工作 


效率 提高 7% 一 14%。 
然而 ， 近 年 来 的 研究 表明 ， 这 样 的 看 法 未 必 完 全 正确 。 文 本 信息 


检索 与 目 然 语言 处 理 之 间 究 苋 能 否 相 互 促进 ， 这 个 问题 引起 了 学 术 界 
的 争论 。 


在 对 文本 材料 的 处 理 上 ， 文 本 信息 检索 和 卓然 语言 处 理 表面 上 有 
很 多 共通 之 处 ， 但 实质 上 二 者 却 有 很 大 的 不 同 。 


言 轧 检索 关注 的 是 如 何 高 效 地 访问 一 个 大 规模 的 文本 ， 它 关注 的 
重点 是 计算 机 的 访问 速度 和 模型 的 索引 效率 。 而 目 然 语言 处 理 则 关注 
文本 的 分 析 、 表 示 或 生成 ， 然 后 调用 不 同 的 计算 工具 来 实现 语音 、 词 
汇 、 名 法、 语义 以 及 语 篇 等 不 同属 面 上 的 语言 处 理 。 


现 阶段 存在 很 多 在 不 同 语言 层面 把 计算 语言 学 的 技术 应 用 在 信息 
检索 上 的 莹 试 。 但 是 这 种 答 试 的 难度 在 于 : 在 已 有 信息 检索 系统 中 加 
入 的 任何 形式 化 的 语言 学 信息 必须 有 足够 的 鲁 棒 性 ， 使 得 加 入 数 以 兆 
位 计算 的 语言 学 信息 不 会 导致 系统 的 性 能 下 降 。 


从 我 们 前 面 阐述 的 信息 检索 系统 的 复杂 的 过 程 可 以 看 出 ， 上 自然 语 
言 处 理 技术 对 于 信息 检索 系统 的 贡献 并 不 是 特别 明显 的 。 这 些 目 然 语 
言 处 理 技术 并 不 能 用 来 改善 信息 检索 中 的 查询 效果 ， 从 而 提高 匹配 技 
术 ， 即 使 在 信息 检索 的 某 些 子 过 程 中 ， 也 难以 到 达 这 样 的 要 求 。 由 于 
已 有 的 信息 检索 系统 都 是 根据 统计 方法 建立 的 ， 要 在 信息 检索 的 后 续 
过 程 中 加 入 一 些 表示 语言 规则 的 符号 指令 并 不 是 一 件 轻而易举 的 事 
情 。 最 后 ,信息 检 索 的 标准 评测 方法 倾向 于 统计 意义 上 的 提高 ， 而 不 
是 关 注 检 索 质 量 的 提高 ， 所 以 如 何 评测 这 些 结果 也 是 一 个 很 环 手 的 问 


题 。 


FU 语种 辨认 与 跨 语言 信息 检 


欧盟 委员 会 在 2005 年 11 月 22 日 公布 了 一 个 题 为 “实现 多 语系 策略 ”的 
官方 报告 ， 这 份 报告 的 题记 使 用 了 斯 洛 伐 克 的 一 句 谚语 : “你 懂得 的 语 
言 越 多 ， 你 就 越 像 一 个 人 ”。 这 人 句 谚语 成 为 了 该 报告 的 基调 。 可 见 多 语 
言 的 使 用 已 经 成 为 欧盟 的 一 个 众人 瞩目 的 大 问题 。 


而 多 语言 的 使 用 ， 不 同 语言 之 间 的 翻译 、 检 索 和 信息 抽取 束 非 党 
重要 了 ， 多 语言 信息 处 理 的 需求 会 变 得 越 来 越 迫 切 和 人 尖锐。 


随 着 信息 技术 的 进步 和 网 络 的 发 展 ， 互 联网 (Web) 逐渐 变 成 一 个 
多 语言 的 网 络 世 界 。 目 前 ， 在 互联 网 上 除了 使 用 英语 之 外 ， 越 来 越 多 
地 使 用 汉语 、 西 班 牙 语 、 德 语 、 法 语 、 日 语 、 韩 国语 等 英语 之 外 的 语 
言 。 从 2000 年 到 2005 年 ， 互 联网 上 使 用 秽语 的 人 数 仅仅 增加 了 
126.9%， 而 在 此 期 间 ， 互 联网 上 使 用 俄语 的 人 数 增加 了 664.5%， 使 用 
和 葡萄牙 语 的 人 数 增 加 了 327.3%， 使 用 中 文 的 人 数 增加 了 309.6%， 使 用 
法 语 的 人 数 增加 了 235.9%。 互 联网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 
增加 得 越 来 越 多 ， 英 语 在 互联 网 上 独霸 天 下 的 局 面 已 经 打破 ， 互 联网 
确实 已 经 变 成 了 多 语言 的 网 络 世界 ， 因 此 ， 网 络 上 的 不 同 语言 之 间 的 
翻译 和 信息 处 理 自然 也 就 越 来 越 担 切 了 。 


根据 Miniwatts Marketing Group. (2006) 的 调查 ， 互 联网 十 大 语言 
如 下 (9212.1) : 


表 12.1 互联 网 上 的 十 大 语言 


互联 网 十 大 语言 


用 户 数目 
( 按 语言 分 ) 


占 全 部 
用 户 比例 


该 语言 世界 
人 口 预测 
(2006 ) 


该 语言 用 
户 互联 网 
普及 率 


^ Aa 
德 文 


56 853 162 


1 340 767 863 


9.90% 


该 语言 互 
联网 用 户 
增长 率 
( 2000 至 
2005 ) 


126. 9096 


309. 60% 


392053 192 | 16.30% | 163.8096 


95 982 043 


59.20% 


106. 00% 


法 文 


40 974 005 


381 193 149 


10. 7096 


葡萄 牙 文 32 372 000 | 3.20% 230 846275 | 14.00% 


意大利 文 


28 870 000 


2.80% 


59 115 261 


48. 80% 


235. 90% 


韩文 33 900 000 3. 3096 73945 860 | 45.80% 78.00% 


327. 30% 


118. 70% 


俄 文 


23 700 000 


2. 3096 


143 682 757 


16.50% 


664. 50% 


十 大 语言 合计 


810 484 459 


79.60% 


3 971 639 798 


20. 40% 


150. 50% 


全 球 总 计 / 平 均 


1 018 057 389 


100. 00% 


来 源 : Miniwatts Marketing Group, 2006 


6 499 697 060 


15.70% 


182.00% 


从 表 12.1 中 可 以 看 出 ， 在 2006 年 ， 互 联网 上 的 中 文 用 户 已 经 超过 了 
1.3 亿 ， 占 全 世界 互联 网 用 户 总 数 的 13.00%， 在 中 国 全 部 人 口中 互联 网 
用 户 普 及 率 已 经 达到 9.9%， 从 2000 年 到 2005 年 的 互联 网 用 户 增 长 率 为 


309.60% » H1 


在 这 个 多 语言 网 络 时 代 ， 多 语言 的 信息 处 理 变 得 越 来 越 重 要 。 这 


里 ， 我 们 介绍 语种 目 动 识别 和 路 语言 检索 。 


IA 


所 谓语 种 辨认 (language identification) 就 是 使 用 计算 机 自动 地 识 
别 语言 的 种 类 。 对 于 互联 网 上 的 信息 ， 首 移 判断 这 种 信息 是 属于 哪 
种 语言 的 ， 辨 认 其 语种 ， 这 显然 是 获取 互联 网 信息 的 最 基础 的 工作 。 


语种 辨认 的 方法 有 三 种 : 


m 使 用 Unicode: 中 文中 全 部 使 用 汉字 ， 日 文中 汉字 、 假 名 和 字母 
共用 ， 韩 文中 使 用 谚 文 (Hangul) ， 藏 文中 使 用 天 城 体 藏 文字 母 ， 蒙 
古文 中 使 用 蒙古 字母 ， 计 算 机 根据 Unicode 中 不 同文 字 的 形状 就 可 以 轻 
而 易 举 地 识别 文本 所 属 的 语种 。 可 和 是， 很 多 语言 都 使 用 拉丁 字母 ， 如 
果 遇 到 使 用 拉丁 字母 的 语言 ， 不 能 使 用 Unicode 来 进行 语种 辨认 了 。 
此 ， 为 了 识别 使 用 拉丁 字母 的 语种 ， 还 需要 采用 如 下 的 方法 。 


m 使 用 一 些 短 的 单词 作为 特征 词 来 识别 :在 使 用 拉丁 字母 的 语言 
中 ， 冠 词 、 介 词 以 及 一 些 短 的 单词 在 各 种 语言 中 的 出 现 频 度 是 不 同 
的 ， 我 们 可 以 把 这 些 单 词 作为 识别 语种 的 特征 词 。 例 如 ， 英 语 的 the, 
and, to, of， 法 语 的 de, la, le，a， 德 语 的 der die, und， 等 等 ， 都 可 以 作为 
特征 词 ， 根 据 它们 在 文本 中 出 现 的 频 度 ， 来 确定 文本 所 属 的 语种 。 


X122 不 同 语言 中 的 特征 词 的 频 度 (根据 ECI 多 语言 语料库 ，100 万 单词 文本 中 的 特征 词 出 现 


频 度 ) 


English French German Italian Norwegian Spanish 


6631 


5561 


5487 


3421 


3214 


2313 


2311 


2115 


m 使 用 典型 的 字母 序列 (n 元 语法 序列 ， 包 括 “ 空 白 ”) 作为 特征 标 
o 在 使 用 拉丁 字母 的 语言 中 ， 由 三 个 字母 构成 的 三 元 语法 
(trigrams) 是 很 容易 计算 和 存储 的 ， 我 们 可 以 根据 文本 中 三 个 字母 序 
列 出 现 频 度 的 大 小 ， 来 判断 文本 所 属 的 语种 。 这 种 方法 对 Tm 
等 别 有 效 ， 在 短文 本 中 不 一 定 会 出 现 上 述 的 特征 词 ， 但 是 ， 计 算 三 
母 序列 却 是 很 方便 的 。 


表 12.3 不 同 语言 中 的 三 字母 序列 的 出 现 频 度 (根据 ECI 多 语言 语料库 ，100 万 单词 文本 中 的 三 
字母 序列 出 现 频 度 ) 


English German Italian Norwegian Spanish 


20901 | nd. | 21451 | ent | 22824 | der | 17558 | la | 32323 | er | 23187 | el. 


20519 | ed. | 21072 | nt_ | 18561 | ie. | 17549 | re. | 21849 | an. | 21758 | la_ 


除了 语种 辨认 之 外 ， 在 多 语言 的 网 络 环 境 中 ， 如 果 能 够 根据 一 种 
语言 来 检索 男 外 一 种 语言 的 文献 ， 显 然 也 是 非常 有 实用 价值 的 。 这 就 
是 跨 语言 信息 检索 (Cross-Language Information Retrieval, fal Tj 
CLIR) 。 


38426 | he_ s L ) ”| 38994 | et_ | 38732 | de 
38122 | the T di_ | 38463 | en | 27147 | os_ 


跨 语言 信息 检索 首先 由 了 萨 尔 顿 (G. Salton) 于 1970 年 在 《外 国语 言 
文献 的 自动 处 理 》 昧 一 文中 提出 。 所 谓 跨 语言 信息 检索 ， 就 是 “根据 第 
语言 的 提问 在 第 二 语言 中 找到 相关 的 文档 ” (finding relevant 


documents in a second language using a query expressed in a first 


language) 。 


椭 尔 顿 提出 了 跨 语 言 信 息 检 索 的 思想 之 后 ， 立 即 引 起 了 学 术 界 的 
关注 ， 目 前 已 经 取得 了 很 多 成 有 果 。 

下 面 是 用 法 语 提问 (关于 “太阳 能 汽车 ” ， 系 统 给 出 相关 的 英语 
文献 的 一 个 跨 语言 信息 检索 的 实例 : 


«topic» 
«num? 
Number: CLIO 
«F-title»- 
Les voitures 
«F-desc? 
Description: Des  infor- 
mations sur les voitures 
solaires. «F-narr? 
Narrative: Un document 
pertinent contiendra des 
renseignements sur les 
recherches et le 
développement des 
voitures solaires. Les 
voitures solaires font 
partie (fun effort pour 
freiner “exploitation de 
carburants non renouve- 
lables. 

<'topic> 


solaires 


<DOCNO> AP880921-0025 < DOCNO> 
<HEAD>Congress Readying Final Action Qn 
Energy Bill<‘HEAD> 
<DATELINE>WASHINGTON(AP)<DATELINE> 
<TEXT> 

Congress is nearing final action on a plan designed 
to reduce U.S. dependence on foreign oil, foster a 
cleaner environment and cause motorists to say 
fill-eg-up—with com, coal or natural gas. By a 
voice vote, the Senate on Tuesday gave its blessing 
to legislation its 64 co-sponsors hope will promote 
commercial development and production of cars, 
trucks and buses that run on alternative fuels. 
..Supporters say the United States has abundant 
supplies of natural gas, the coal that is used to 
produce methanol and the grains that are the roots 
of ethanol. 

Currently, methanol and ethanol are available as 
fuels in some parts of the country, but most 
vehicles experience problems if more than 5 
percent to 10 percent is blended into gasoline. All 
three alternative fuels produce less of the carbon 
and other greenhouse pollutants that scientists say 
are collecting in the atmosphere and trapping heat 
from the sun... 

Sen. Jack Danforth,  R-Mo.. who introduced 
similar legislation in 1984 and cosponsored 
Rockefeller's bill, said that the legislation is a 
grand slam for energy independence.., 

‘Increased use of alternative fuels will reduce our 
dangerous dependence on foreign oil’, he said. 
* Alternative fuels will help clean up our environ- 
ment by reducing harmful auto emissions. ` 


«TEXT» 
图 12.1 根据 法 语 的 提问 CEU) ， 给 出 英语 的 检索 结果 CB) 
跨 语 言 信息 检索 兼 具 信 息 检 索 和 机 器 翻译 二 者 的 特征 。 从 信息 检 
索 的 角度 说 ， 跨 语言 信息 检索 要 使 用 与 语言 无 关 的 鲁 棱 的 信息 抽取 技 
术 ， 它 要 把 第 一 语言 提问 中 的 单词 以 及 第 二 语言 文档 中 使 用 的 单词 一 


起 映射 到 一 个 空间 中 ， 使 得 计算 机 能 够 识别 它们 之 间 的 相似 性 。 从 机 

器 翻译 的 角度 说 ， 跨 语言 信息 检索 不 要 求 机 器 翻译 中 那样 深层 的 剖析 
技术 ， 但 又 不 是 单词 对 单词 的 简单 翻译 ， 在 检索 中 往往 需要 处 理 多 词 
术语 。 


一 般 说 来 ， 跨 语言 信息 检索 需要 处 理 三 个 问题 。 


第 一 ， 找 出 译文 : 跨 语 言 信 息 检 索要 找 出 第 一 语言 的 单词 在 第 二 
语言 中 的 翻译 等 价 物 。 可 以 使 用 两 个 办 法 。 人 第 一 个 办 法 是 使 用 双语 词 
典 ， 在 词典 中 把 翻译 等 价 物 逐 一 地 列举 出 来 ;第 二 个 办 法 是 使 用 双语 
平行 语料库 ， 在 平行 语言 库 中 查询 翻译 的 等 价 物 。 词 典 中 要 处 理 如 下 
事项 : 单词 的 拼写 变 体 (例如 ，trench coat | 军装 式 大 衣 」 与 
trenchcoat) ， 单 词 的 派生 变 体 (HE, anims] S HA A electrostatic, A 
统 可 以 翻译 electrostatically) , im 3L. B9 29 zx mi (例如 ， 
radiopasteurization [放射 性 巴 氏 杀菌 ] 这 个 单词 ， 在 词典 中 查 不 到 ， 可 
是 ， 在 100 万 词 的 Brown 语 料 库 中 却 出 现 了 7 次 ) ， 专 有 名 词 的 处 理 〈 例 
如 ，Yeltsin | 叶利钦 | ) 。 


"B, EMO: 对 于 第 一 语言 中 同样 的 提问 ， 跨 语言 信息 检索 
往往 会 得 到 不 同 的 第 二 语言 的 译文 ， 这 时 ， 删 除 某 些 市 有 翻译 噪声 的 
译文 往往 是 有 好 处 的 。 例 如 ， 如 果 对 于 法 语 的 voiture (4) ， 英 语 译文 
出 现 对 应 的 单词 carriage 〈 四 轮 载 客 马车 ) ， 这 样 一 个 古 奥 的 、 陈 旧 的 
单词 ， 束 应 当 对 这 个 译文 进行 剪 校 ， 删 除 carriage。 一 般 可 以 对 于 译文 
的 单词 进行 排序 ， 优 先 选 择 那 些 序号 较 高 的 译文 。 


第 三 ， 译 文 加 权 : 如 果 第 一 语言 的 提问 在 第 二 语言 中 对 应 于 一 个 
以 上 的 译文 ， 可 以 使 用 布尔 加 权 检 索 技术 (weighted Boolean retrieval 
technique) ， 根 据 这 些 译文 的 重要 性 进行 加 权 。 


由 于 互联 网 的 普及 ， 互 联网 上 的 多 语言 信息 处 理 越 来 越 重 要 ， 文 
本 检索 会 议 (TREC) 从 1997 年 开始 设 有 跨 语 言 信息 检索 的 评测 项 目 ， 
叫做 “cross-language track”， 每 年 都 进行 评测 ， 通 过 评测 推动 跨 语言 信 
县 检索 的 发 展 。 
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第 十 三 章 ”信息 抽取 和 目 动 文摘 


本 章 讨论 信息 抽取 和 目 动 文摘 。 


“信息 抽取 ” (information extraction, PRIE) 研究 如 何 从 自由 文 
本 中 自动 地 抽取 特定 的 实体 (entities) 、 关 系 (relation) 和 事件 
(events) 的 方法 和 技术 。 


随 着 计算 机 的 普及 以 及 互联 网 (Web) 的 迅猛 发 展 ， 大 量 的 信息 
以 电子 文档 的 形式 出 现在 人 们 面前 。 为 了 应 对 信息 爆炸 市 来 的 广 重 挑 
战 ， 迫 切 需 要 一 些 目 动 化 的 工具 帮助 人 们 在 海量 信息 产 中 迅速 地 抽取 
真正 需要 的 信息 。 信 息 抽 取 人 研究 正 是 在 这 种 背景 下 产生 的 。 


言 尽 抽 取 与 上 一 章 介 绍 的 信息 检索 不 同 ， 它 们 之 间 的 差别 主要 表 
现在 三 个 方面 : 


(功能 不 同 。 信 息 检 索 系 统 主 要 是 从 大 量 的 文档 集合 中 找到 与 用 
尸 需 求 相关 的 文档 列表 ; 而 信息 抽取 系统 的 目的 则 是 从 文本 中 直接 抽 
取 用 户 感 兴趣 的 事实 信息 。 


@) 处 理 技术 不 同 。 信 息 检索 系统 通常 利用 统计 及 关键 词 匹 配 等 技 
AR, FEMA RTS” (bags of words) ， 不 需要 对 文本 进行 深入 分 
析 理 解 ， 而 信息 抽取 往往 要 借助 自然 语言 处 理 技 术 ， 通 过 对 文本 中 的 
句子 以 及 篇 章 进 行 分 析 处 理 后 才能 完成 。 


适用 领域 不 同 。 信 息 检索 系统 通常 是 与 领域 无 关 的 ， 而 信息 抽 
取 系 统 则 是 与 领域 相关 的 ， 只 能 抽取 系统 预 完 设 定好 的 有 限 种 类 的 事 
实 信息 。 


另 一 方面 ， 信 息 检索 与 信息 抽取 又 是 互补 的 。 为 了 处 理 海量 文 
本 ， 信 息 抽取 系统 通常 要 以 信息 检索 系统 的 输出 作为 输入 ， 而 信息 抽 
取 技术 又 可 以 用 来 提高 信息 检索 系统 的 性 能 。 信 息 检索 和 信息 抽取 二 
者 的 结合 能 够 更 好 地 服务 于 用 户 的 信息 处 理 需求 。 


言 妃 抽取 虽然 需要 对 文本 进行 一 定 程度 的 理解 ， 但 与 真正 的 文本 
理解 (Text Understanding) 还 是 不 同 的 。 在 信息 抽取 中 ， 用 户 一 般 只 
关心 有 限 的 感 兴趣 的 事实 信息 ， 而 不 关心 文本 意义 的 细微 差别 以 及 作 
者 的 写作 意图 等 深层 理解 问题 。 因 此， 信息 抽取 只 能 算是 一 种 浅 层 的 
或 者 说 简化 的 文本 理解 技术 。 


一 般 来 说 ， 信 息 抽取 系统 的 处 理 对 象 是 自然 语言 文本 尤其 是 非 结 
构 化 文本 。 但 广义 上 讲 ， 除 了 电子 文本 以 外 ， 信 息 抽 取 系 统 的 处 理 对 
象 还 可 以 是 语 首 、 图 像 、 视 频 等 其 他 媒体 类 型 的 数据 。 在 这 里 ， 我 们 
只 讨论 狭义 的 信息 抽取 ， 即 针对 目 然 语 言 文本 的 信息 抽取 ， 不 涉及 语 
首 、 图 像 和 视频 等 信息 。 


在 本 章 中 ， 我 们 主要 讨论 两 种 类 型 的 信息 抽取 : 一 种 是 名 称 的 目 
动 抽 取 (extraction of names) ， 一 种 是 事件 的 自动 抽取 (extraction of 
events) ， 并 介绍 抽取 规则 的 书写 方法 。 对 于 名 称 的 自动 抽取 ， 介 绍 
了 名 称 标 注 器 (name tagger) 和 命名 实体 识别 (naming entity 
recognition) ; 对 于 事件 抽取 ， 介 绍 了 事件 识别 器 (event 
recognizer) 、 局 部 句法 分 析 、 篇 划分 析 和 推理 以 及 知识 获取 等 技术 。 


本 章 最 后 介绍 上 自动 文摘 的 有 关 技术 。 


第 一 节 ”名 称 的 目 动 抽取 


语言 结构 的 传统 处 理 方式 很 少 注意 名 称 、 地 址 、 数 词 短语 等 表示 
命名 实体 (naming entity) 的 单词 ， 语 言 学 家 对 于 它们 几乎 没有 任何 的 
兴趣 。 语 言 分 析 中 ， 语 言 学 家 在 碍 字典 的 时 候 ， 他 们 仅仅 是 将 文本 中 
的 单词 标注 为 名 词 、 动 词 、 形 容 词 等 ， 一 般 也 不 注意 名 称 。 但 事实 
上 ， 许 多 文章 中 都 包含 大 量 的 名 称 ， 如 有 果 目 然 语言 处 理 系统 不 能 将 它 
们 识别 为 语言 单位 ， 那 么 融 很 难 对 文章 进行 语言 分 机 。 不 同类 型 的 文 
章 包含 不 同类 别 的 名 称 。 化 学 文章 中 包含 化 学 物品 名 称 ， 生 物 学 文章 
中 包含 与 物种 、 蛋 日 质 及 基因 有 关 的 名 称 ， 报 刊 中 包含 大 量 的 人 名 、 
机 构 名 及 地 和 名。 尽管 语言 学 家 对 于 名 称 的 研究 不 感 兴趣 ， 但 是 ， 这 些 
名 称 对 于 信息 抽取 是 很 有 价值 的 ， 目 然 语言 处 理应 当 重 视 名 称 的 人 研 


PP 


gs? 


名 称 是 目 然 语言 中 常见 的 语言 单位 ， 大 多 数 的 文本 部 充 满 看 名 
称 ， 因 此 ， 名 称 的 目 动 抽取 束 成 为 目 然 语 言 分 析 的 重要 的 步 怠 。 例 
如 ， 在 事件 抽取 和 机 器 翻 译 中 ， 首 先 痢 需要 进行 名 称 的 目 动 抽取 。 在 
基于 术语 的 文档 检索 中 ， 如 采 连 续 的 两 个 单词 不 是 名 称 ， 在 一 般 情 况 
下 就 要 对 它们 进行 分 别 的 处 理 ， 而 如 采 连 续 的 两 个 单词 是 名 称 ， 那 
么 ， 就 可 以 把 它们 结合 在 一 起 进行 处 理 。 在 文档 标 引 时 ， 如 有 果 把 名 称 
分 为 人 名 、 机 构 名 和 地 名 ， 有 索引 吏 可 能 具有 更 大 的 实用 价值 。 由 此 可 
见 ， 名 称 的 目 动 抽取 对 于 目 然 语 言 处 理 具 有 重要 的 作用 。 


名 称 的 自动 抽取 (extraction of names) 也 就 是 要 对 文本 中 的 名 称 
进行 自动 识别 (recognition) 和 标注 (tagging) ° 


我 们 将 碍 找 人 名 、 机 构 名 和 地 名 作为 名 称 识 别 和 标注 的 示例 。 名 
称 识 别 和 分 类 处 理 的 结果 采用 标准 通用 置 标语 言 (Standard 
Generalized Mark-up Language， 简 称 SGML) 来 标记 ， 在 名 称 开 头 使 
用 <NAME TYPE=xx>， 结 尾 使 用 </NAME>。 


这 样 ， 句 子 “Capt. Andrew Ahab was appointed vice president of the 
Great White Whale Company of Salem-Massachusetts” 可 以 标注 如 下 : 


Capt. <NAME TYPE=PERSON > Andrew Ahab</NAME> was 
appointed vice president of the <NAME TYPE=ORGANIZATION> 
Great White Whale Company </NAME> of «NAME 
TYPE=LOCATION > Salem </NAME>, «NAME TYPE=LOCATIN> 
Massachusetts </NAME> 


这 种 标注 的 基本 理念 十 分 简单 。 我 们 可 以 写 大 量 的 有 限 状 态 模 式 
来 进行 名 称 的 识别 和 标注 ， 其 中 每 个 名 称 都 记录 了 该 名 称 中 的 子 集 并 
将 其 分 类 。 这 些 模式 中 的 内 容 会 根据 目 身 的 特性 与 特定 的 分 类 标记 进 
行 匹配 。 我 们 使 用 标准 普通 表达 符号 ， 符 别 使 用 后 缘 符 '+' 来 与 其 中 
项 元 素 的 一 个 或 多 个 实例 进行 匹配 ， 例 如 ， 表 达 式 


Capitalized-word+'Corp.' 
可 以 表示 以 大 写字 母 开 头 并 包含 一 个 或 多 个 单词 的 公司 名 称 。 
同样 地 ， 表 达 式 

‘Mr.’capitalized-word+ 


可 以 与 用 Mr 开头 的 单词 序列 匹配 ， 并 被 归 类 为 人 名 。 


要 创建 一 个 完整 的 名 称 标 注册 (name tagger) ， 就 要 编制 一 个 文 
本 标注 的 程序 ， 然 后 从 文本 中 的 每 个 单词 开始 与 所 有 的 表达 式 进行 匹 
fic; 一 旦 匹配 成 功 ， 单 词 序 列 束 会 被 归 类 ， 然 后 再 继续 这 样 的 步 又 ， 
直到 标注 结束 。 


如 条 模式 匹配 症 以 特定 指 回 或 规则 开始 的 ， 例 如 ， 要 遵循 最 长 匹 
配 的 规则 ， 或 者 要 给 不 同 规则 制定 优先 顺序 ， 那 么 ， 在 匹配 时 融 必 须 
根据 这 样 的 规则 或 优先 顺序 ， 选 择 一 项 最 佳 的 匹配 。 


一 个 操作 性 能 好 的 的 名 称 标 注 絮 需要 一 系列 的 单词 列表 ， 例 如 ， 
一 些 知名 公司 名 称 的 列表 (例如 ，IBM，Ford) 以 及 常见 首 字母 列表 
(例如 ，Fred，Susan) ° 


另外， 名 称 标 注 器 还 应 该 具备 一 个 能 识别 不 同 别名 的 装置 。 例 
如 ， 在 同一 篇 文 草 中 出 现 了 “Fred Smith” 和 “Mr. Smith”， 这 两 个 名 称 很 
可 能 指 的 是 同一 个 人 。“Robert Smith Park” 可 能 是 一 个 人 名 ， 也 可 能 是 
一 个 地 名 (公园 的 名 称 ) ， 但 如 果 在 接 下 来 的 句子 中 出 现 *<Mr Park” 这 
样 的 人 名 ， 那 么 ， 我 们 就 可 以 肯定 “Robert Smith Park” 也 是 一 个 人 名 。 


逐步 地 添加 这 样 的 模式 和 功能 ， 通 过 机 器 学 习 的 方法 ， 束 可 以 目 
动 训练 出 一 个 高 效能 的 名 称 标注 内。 当然 ， 名 称 标 注册 的 训练 是 一 个 
非常 艰苦 的 过 程 ， 和 需要 设计 一 个 高 水 平 的 系统 训练 程序 来 进行 训练 。 
如 时 训练 得 当 ， 在 对 英语 新 闻 的 特定 话题 或 者 不 同 话题 进行 训练 和 测 
试 时 ， 名 称 标注 器 的 标注 精确 度 可 达到 96% » 


下 面 我 们 简单 地 介绍 名 称 标注 器 的 训练 方法 。 
我 们 来 考虑 一 项 简单 的 任务 名 称 标 注 任务 一 一 人 名 标注 。 


在 人 名 标注 时 ， 每 个 标记 tagi 具备 5 个 可 能 性 : 人 名 的 开始 ， 人 名 
的 中 间 ， 人 名 的 结尾 ， 单 个 人 名 的 开始 和 结尾 ， 或 非 人 名 。 当 给 一 个 
单词 进行 标注 时 ， 每 个 单词 wi 都 可 能 属于 这 5 个 可 能 性 中 的 一 个 ， 为 
此 我 们 需要 计算 w; 标注 为 tag; 的 概率 p (tag, |w; ) 。 如 果 wi =“John”， 
那么 ， 它 的 tagi 瓯 是 人 名 的 开始 ， 或 者 是 单个 人 名 的 开始 和 结尾 : 如 
^w; =“eat"， 那 么 ， 以 上 的 两 种 可 能 性 都 为 雯 ， 它 是 一 个 非 人 名 。 对 
于 句子 中 的 每 一 个 单词 ， 都 计算 该 单词 的 p (tag |wi ) 。 这 样 ， 我 们 
瓯 可 以 得 到 一 个 训练 的 结 

把 所 得 到 的 训练 结果 运用 于 新 的 句子 ， 使 用 韦 特 比 搜索 算法 来 求 
这 个 句子 中 可 能 性 最 大 的 人 名 标记 序列 ， 这 样 ， 束 可 以 从 新 的 句子 中 
抽出 人 和 名。 

在 上 面 的 名 称 标注 中 ， 名 称 的 概率 仅 取 决 于 当前 词 ， 没有 考虑 上 
下 文 ， 这 样 的 概率 是 不 准确 的 。 前 面 我 们 说 过 ， 在 单词 “Mr.” 后 面 可 以 
预测 出 是 一 个 人 的 名 字 ， 而 在 单词 “says” 的 前 面 也 可 以 预测 出 是 一 个 
人 的 名 字 。 这 意味 着 ， 一 个 标记 的 概率 还 与 前 面 的 单词 、 当 前 词 、 后 
面 的 单词 有 关 ， 也 就 是 说 ， 我 们 有 必要 考虑 上 下 文 ， 计 算 概率 P (tag, 
[Wir Wi, Wier) ， 这 样 ， 我 们 就 需要 使 用 二 元 语法 了 来 进行 名 称 标注 
T3 
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模型 等 技术 ， 效 不 资 述 。 

在 目 然 语言 处 理 中 ， 名 称 的 自动 抽取 又 叫做 “命名 实体 识 
别 ”(Naming Entity Recognition) 。 一 般 来 说 ， 命 名 实体 识别 的 任务 就 


征 识别 出 竺 处理 文本 中 三 大 类 命名 实体 和 七 小 类 命名 实体 。 


三 大 类 命名 实体 是 实体 类 、 时 间 类 和 数字 类 。 七 小 类 命名 实体 是 
人 和 名、 机构 名 、 地 名 、 时 间 、 日 期 、 货币 和 百分比 。 在 这 些 命名 实体 
中 ， 时 间 、 日 期 货币 和 百分比 的 构成 有 比较 明显 的 规律 ， 识 别 起 来 
相对 容易 ， 而 人 名 、 地 名 、 机 构 名 的 用 字 灵 活 ， 识 别 的 难度 很 大 ， 因 
此 命名 实体 识别 通常 指 的 是 人 名 、 地 名 和 机 构 名 的 识别 。 我 们 在 上 面 
只 是 介绍 了 人 名 的 识别 ， 地 名 和 机 构 名 的 识别 还 没有 涉及 。 


命名 实体 识别 的 过 程 通常 包括 两 部 分 ，( 册 识别 命名 实体 的 边界 ; 
眉 确 定 命名 实体 的 类 别 ， 判 断 命 名 实体 是 属于 人 名 、 地 名 还 是 机 构 
名 。 英 语 中 的 命名 实体 具有 比较 明显 的 形式 标志 ， 即 人 名 、 地 名 和 机 
构 名 等 实体 中 的 每 个 单词 的 第 一 个 字母 要 大 写 ， 所 以 实体 边界 的 识别 
相对 容易 ， 重 点 是 确定 实体 的 类 别 。 


对 于 中 文 来 说 ， 命 名 实体 识别 的 主要 难点 在 于 : 


(1) 命名 实体 形式 多 变 ， 命名 实体 的 内 部 结构 很 复杂 ， 对 中 文 命 
名 实体 来 说 ， 情 况 尤 其 如 此 。 


AB: 人 名 一 般 包 含 姓氏 (由 一 到 两 个 汉字 组 成 ) 和 名 ETF 
个 汉字 组 成 ) 两 部 分 ， 其 中 姓氏 的 用 字 是 有 限制 的 ， 而 名 的 用 字 很 灵 
活 。 人 名 还 有 很 多 其 他 形式 ， 可 以 使 用 名 来 指 代 一 个 人 ， 也 可 以 使 用 
字 、 写 等 其 他 命名 来 指 代 一 个 人 ， 还 可 以 使 用 姓 加 上 前 级 或 后 缀 以 及 
职务 名 来 指 代 一 个 人 。 例 如 : “杜甫 、 杜 子 关 、 子 类 、 杜 工 部 ”都 是 同 
一 个 人 。 


地 名 : 地 名 通常 由 者 干 个 汉字 组 成 ， 可 能 包括 作为 后 缀 的 关键 
字 ， 也 可 能 使 用 别名 。 例 如 ,“ 广 州 、 广 州 市 、 羊 城 ? 是 指 同一 个 地 


方 ,“ 持 城 ”是 别名 。 除 了 全 称 的 地 名 之 外 ， 还 存在 一 些 简称 来 指称 地 
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机 构 名 : 机 构 名 可 以 包含 命名 性 的 成 分 、 修 饰 性 成 分 、 表 示 地 名 
的 成 分 以 及 关键 词 成 分 等 。 例 如 : 机 构 名 “北京 百 富 勤 投资 咨询 公 
RPR, “北京 ”是 表示 地 名 的 成 分 ,“ 百 富 勤 ”十 命名 性 的 成 分 ,“ 投 资 
咨询 ”是 修 饰 性 成 分 , "Au" NU S nu DET 
机 构 名 ， 例 如 : 机 构 名 “北京 大 学 附属 小 学 ”中 崩 套 了 男 一 个 机 构 名 “ 北 
RAS” » 机 构 名 中 还 有 很 多 信 称 形式 ， 例 如 : “中 国 奥 委 会 ” 定 “ 中 国 
奥林匹克 运动 会 ”的 简称 、“ 北 师 大 三 附 ” 是 “北京 师范 大 学 第 二 附属 小 


"E" BUR) ° 


(2) 命名 实体 的 语言 环境 复杂 : 命名 实体 是 语言 中 非常 普 裔 的 现 
象 ， 因 此 可 以 出 现在 各 种 语言 环境 中 。 同 样 的 汉字 序列 在 不 同 语 境 
下 ， 可 能 具有 不 同 的 实体 类 型 ， 或 者 在 某 些 条 件 下 十 实体 ， 在 另外 的 
RIE PADER o Hih: 


An: “彩霞 "在 某 些 条 件 下 指 人 名 ， 而 某 些 条 件 下 束 是 一 种 目 然 
现象 ; 


地 名 : “河南 ?在 某 些 条 件 下 是 一 个 省 名 ， 在 某 些 条 件 下 是 指 河 的 
南边 ; 


机 构 名 : “新 世界 ”在 某 些 条 件 下 指 机 构 名 ， 在 某 些 条 件 下 只 是 一 
个 词组 。 


与 英语 相 比 ， 汉 语 命名 实体 识别 任务 要 复杂 得 多 ， 主 要 表现 在 : 


(1) 汉语 文本 没有 类 似 英语 文本 中 空格 之 类 的 显 式 标 示 词 边界 的 
标示 符 ， 必 须 进 行 目 动 切 词 ， 而 目 动 切 词 和 命名 实体 识别 之 间 会 互相 
影响 ， 彼 此 牵制 。 


(2) 英语 的 命名 实体 往往 是 首 字母 大 写 的 ， 例 如 : Liu Chang Le 
is the founder of Phoenix TV 中 ， 人 名 Liu Chang Le 的 首 字母 是 大 写 的 。 
而 中 文 文本 中 没有 这 样 的 标示 ， 例 如 : “凤凰 卫视 的 创始 人 是 刘 常 
RF, AAAA R RTE RBI FSP o 


命名 实体 是 目 然 语 言 文本 中 承载 信息 的 重要 语言 单位 ， 命 名 实体 
的 识别 和 分 析 人 研究 在 网 络 信息 抽取 、 网 络 内 容 管理 和 知识 工程 等 领域 
占有 非常 重要 的 地 位 。 目 前 的 命名 实体 识别 的 技术 水 乎 还 远 远 不 能 满 
足 大 规模 真实 应 用 的 需求 ， 还 需要 更 加 深入 的 研究 。 从 人 研 方 法 上 来 
讲 ， 命 名 实体 识别 的 研究 要 突破 目 然 语言 处 理 领 域 的 限制 ， 面 向 真实 
的 互联 网 应 用 ， 人 研究 面向 海量 、 见 余 、 寞 构 、 不 规范 、 舍 有 大 量 噪声 
的 网 页 的 命名 实体 识别 技术 。 


第 二 节 ”事件 的 目 动 抽取 


事件 目 动 抽取 的 主要 功能 是 从 文本 中 抽取 出 特定 的 事实 信息 
(factual information) 。 例 如 ， 从 新 闻 报 道中 抽取 出 念 怖 事件 的 详细 
情况 时间、 地 点 、 作 案 者 、 受 害 者 、 袭 击 目 标 、 使 用 的 武器 等 ， 从 
经 济 新 闻 中 抽取 出 公司 发 布 新 产品 的 情况 ， 公 司 名 、 产 品名 、 发 布 时 
间 “、 产 品 性 能 等 ， 从 病人 的 医疗 记录 中 抽取 出 病人 的 情况 : 症状 、 诊 
断 记 录 、 检 验 结果 、 处 方 等 等 。 被 抽取 出 来 的 信息 通常 要 以 结构 化 的 
形式 来 描述 ， 这 些 信息 可 以 直接 存 入 数据 库 中 ， 供 用 户 查 询 以 及 进 一 
步 分 析 利 用 。 


事件 目 动 抽取 系统 要 从 文本 中 目 动 地 抽取 茶 种 类 型 的 实例 或 事 
fe 


例如 ， 对 于 下 面 的 句子 : 


Harrier Smith, vice president of Ford Motor Corp., has been appointed 
president of DaimlerChrysler Toyota. (Ford Motor Corp. 的 副 总 裁 Harrier 
Smith 被 任命 为 DaimlerChrysler Toyota 公 司 的 总 裁 ) 


经 过 事件 抽取 之 后 ， 我 们 可 以 得 到 如 下 的 两 个 数据 库 记 录 : 


Person: Harrier Smith 


Position: vice president 


Company: Ford Motor Corp. 


Start /leave job: leave job 


图 13.1 数据 库 记 录 1 


Person: Harrier Smith 


Position: vice president 


Company: Daimler Chrysler Toyota 


Start/leave job: start job 
图 13.2 ”数据 库 记 录 2 


第 一 个 记录 是 Harrier Smith 在 Ford Motor Corp. 公 司 离职 的 记录 , 
第 二 个 记录 是 Harrier SmithfEDaimlerChrysler Toyota 公 司 就 职 的 记录 。 


用 信息 抽取 的 术语 来 说 ， 我 们 从 上 面 的 文本 中 创建 了 两 个 填充 好 
的 “模板 ”(templates) ， 而 模板 中 的 填充 项 叫做 “ 档 ”(slot) 。 


我 们 可 以 使 用 正则 表达 式 来 描述 上 面 的 事件 : 


capitalized-word+ , 'appointed' capitalized-word+, , ‘as’ 


President 3 


与 这 个 正则 表达 式 相 应 的 模板 如 图 13.3 所 示 。 


Person: 2 
Position: 3 


Company: | 


Start /leave job: start job 


图 13.3 HU 


模板 中 的 编号 项 目 可 以 用 与 其 相 匹配 的 相关 编号 的 文字 来 填充 。 
这 个 模板 可 以 处 理 如 下 的 简单 句子 : 


Ford appointed Harrier Smith as president. 


这 样 的 模板 比较 简单 ， 还 难以 处 理 真实 的 复杂 文本 ， 因 为 在 实际 
的 应 用 中 ， 可 能 出 现 的 句子 的 变化 花样 很 多 ， 这 样 简单 的 模板 是 难于 
应 付 的 。 


这 些 变化 花样 举例 如 下 : 


e 公司 的 名 称 : Abercrombie and Fitch appointed Harriet Smith as 


president. 


e 公司 的 描述 : IBM, the famous computer manufacturer , 


appointed Harriet Smith as president. 


e 句子 的 修饰 语 : IBM unexpectedly appointed Harriet Smith 


yesterday as president. 
e 时 仿 : IBM has/will appointed Harriet Smith as president. 


e 从 句 结构 : Harriet Smith, who was appointed as president by IBM 


e 动词 名 物化 : IBM announced the appointment of Harriet Smith as 


president. 


e 职位 的 名 称 : IBM appointed Harriet Smith as executive vice 


president for networking. 


e 连词 : IBM declared a special dividend and appointed Harriet 


Smith as president. 


e 所 指 照 应 : IBM has made a major management shuffle; the 


company appointed Harriet Smith as president this week. 


e 必要 的 推理 : Thomas J. Watson resigned as president of IBM , 


and Harriet Smith succeeded him. 


从 原则 上 说 ,每 增加 一 种 变化 就 需要 适当 地 增加 事件 模板 
的 “ 槽 ?， 这 样 做 的 结果 第 毅 会 使 得 模板 变 得 非 党 复杂， 使 问题 复杂 
qe 


为 了 解决 这 样 的 复杂 化 问题 ， 我 们 可 以 使 用 名 称 标注 髓 对 于 文本 
中 的 句子 进行 简单 的 句法 分 析 ， 标 注 时 不 是 使 用 具体 的 单词 而 是 使 用 
词组 类 型 符号 (如 ， 名 词 词 组 noun phrase、 动 词 词组 verb phrase 等 ) 来 
建立 模板 。 例 如 ， 对 于 句子 


Ford Motor Company has appointed Harriet Smith, 45, as 


president. 


名 称 标注 侨 可 以 产生 出 如 下 的 结构 成 分 (用 下 划 线 标 出 ) : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 


name type = org name type = person 
通过 名 词 词组 (np) 分析， 可 以 得 到 : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 


np head = org np head =person np head = president 


通过 动词 词组 (vp) 分 析 ， 可 以 进一步 得 到 : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 


np head =org vp head - appoint np head 2 person np head = president 


最 后 ， 我 们 避 ® 可 以 得 到 事件 (Event) 的 描述 如 下 : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 


Event person = Harriet Smith position = president 


company = Ford Motor Company start/leave job = start job 


图 13.4 事件 的 描述 


在 这 样 的 事件 描述 中 ， 名 词 词组 np 和 动词 词组 vp 都 可 以 使 用 自 底 
向 上 的 浅 层 句 法 分 析 方 法 轻而易举 地 分 析出 来 。 


根据 句法 分 析 得 到 的 事件 描述 结果 来 填充 模板 中 的 构 ， 我 们 不 难 
得 到 如 图 13.5 的 模板 。 


Person = Harriet Smith 
Position = president 


Company = Ford Motor Company 


Start /leave job = start job 


图 13.5 ”填充 后 的 模板 


Ext rU EE: 


xa [rco] [ciem [con] [wire] - 


图 13.6 事件 抽取 的 过 程 


通过 句法 分 析 得 到 输入 文本 的 某 种 结构 表示 ， 如 完整 的 分 析 树 或 
分 析 树 片段 的 集合 ， 可 以 作为 计算 机 理解 目 然 语言 的 基础 。 


在 信息 抽取 领域 一 个 比较 明显 的 趋势 古越 来 越 多 的 系统 采用 局 部 
分 析 技 术 ， 这 主要 是 由 于 以 下 三 方面 原因 造成 的 。 


第 一 个 原因 是 信息 抽取 任务 目 身 的 特殊 性 。 信 息 抽 取 中 需要 抽取 
的 信息 通 彰 只 是 有 某 一 领域 中 数量 有 限 的 事件 或 关系 。 因 此 ， 文 本 中 可 
能 只 有 一 小 部 分 与 抽取 任务 有 关 ， 其 他 部 分 与 抽取 任务 无 关 。 束 是 那 
些 与 抽取 任务 有 关 的 句子 ， 也 并 不 需要 分 析出 它 的 完整 的 结构 表示 ， 
只 要 识别 出 句子 中 部 分 片段 之 间 的 某 些 特定 关系 风行 了 。 因 此 ， 人 信息 
抽取 只 需要 得 到 完整 分 析 树 的 部 分 子 图 。 


第 二 个 原因 是 局 部 分 析 技 术 在 消息 理解 系列 会 议 (Message 
Understanding Conference, fai PKMUC) 的 系列 评测 中 获得 成 功 。SRI 
公司 在 其 参加 第 四 次 消息 理解 会 议 (MUC-4) 评测 的 FASTUS 系 统 
开始 采用 层级 式 有 限 状态 上 自动 机 (Cascaded Finite-State Automata) 的 
分 析 方 法 。 该 方法 使 FASTUS 系 统 具 有 概念 简单 、 运 行 速度 快 、 开 发 
周期 短 等 优点 ， 在 多 次 MUC 评 测 中 都 后 于 领先 地 位 。 

最 后 ， 第 三 个 原因 是 ， 除 了 局 部 分 析 技 术 之 外 ， 目 前 我 们 尚 没 有 
其 他 更 好 的 、 可 供 选 择 的 方法 。 目 前 ， 完 全 分 析 技 术 在 鲁 棒 性 方面 以 
及 在 时 空 开销 方面 都 难以 满足 信息 抽取 系统 的 需要 。 


但 是 ， 另 一 方面 ， 我 们 也 要 清醒 地 看 到 : 局 部 分 析 技 术 的 能 力 还 
是 有 局 限 的 ， 这 种 技术 只 能 使 信息 抽取 系统 的 处 理 能 力 达到 目前 的 水 
平 ， 要 想 使 信息 抽取 系统 的 性 能 有 更 大 的 飞跃 ， 我 们 还 必须 探索 更 有 
效 的 分 析 技 术 。 


除了 上 面 所 描述 的 局 部 句法 分 析 技 术 之 外 ， 对 于 事件 目 动 抽取 这 
样 的 复 洒 的 信息 抽取 还 需要 进行 篇 划分 析 和 推理 ， 并 需要 使 用 知识 获 


取 的 技术 。 


一 般 说 来 ， 在 事件 目 动 抽 取 中 ， 用 户 关 心 的 事件 以 及 各 种 关系 往 
往 散 布 于 文本 的 不 同位 置 ， 其 中 涉及 到 的 实体 通常 可 以 有 多 种 不 同 的 
表达 方式 ， 并 且 还 有 许多 事实 信息 隐 含 于 文本 之 中 。 为 了 准确 而 没有 
遗漏 地 从 文本 中 抽取 相关 的 信息 ， 信 息 抽 取 系 统 必须 能 够 识别 文本 中 
的 共 指 现象 ， 进 行 必要 的 推理 ， 以 合并 描述 同一 事件 或 实体 的 信息 片 
段 。 因 此 ， 篇 章 分 析 、 推 理 能 力 对 信息 抽取 系统 来 说 是 必 不 可 少 的 。 


初 看 起 来 ， 信 息 抽 取 中 的 篇 章 分 析 比 故事 理解 中 的 篇 章 分 析 要 简 
单 得 多 。 因 为 在 信息 抽取 中 只 需要 记录 某 些 类 型 的 实体 和 事件 束 行 
了 。 但 是 ， 大 多 数 信息 抽取 系统 只 识别 和 保存 与 需求 相关 的 文本 片 
段 ， 从 中 抽取 出 一 些 零 碎 的 信息 。 在 这 个 过 程 中 很 可 能 把 那些 用 以 区 
分 不 同事 件 、 不 同 实体 的 关键 信息 给 遗漏 了 。 而 如 采信 息 不 全 ， 要 完 
成 篇 划分 析 束 相当 困难 。 


目前 尚 缺 乏 有 效 的 篇 章 分 析 理 论 和 方法 可 以 借鉴 。 现 有 篇 划分 析 
理论 大 多 是 面 辐 人 、 面 同 口语 的 ， 分 析 时 需要 借助 大 量 的 常识 ， 目 前 
篇 章 分 析 设 想 的 目标 文本 也 比 真实 文本 要 规范 ， 并 且 理 论 本 身 还 没有 
在 大 规模 语 料 上 进行 过 测试 。 


言 轧 抽取 系统 除了 有 要 解 决 文本 内 的 共 指 问题 外 ， 还 需要 解决 文本 
间 的 共 指 问题 ， 也 就 古 跨 文本 的 共 指 问 题 。 在 文本 来 源 比较 广泛 的 情 
况 下 ， 很 可 能 有 多 篇 文本 描述 了 同一 个 事件 、 同 一 个 实体 ， 不 同文 本 
间 还 会 存在 语义 歧义 ， 如 相同 的 词 具 有 不 同 的 含义 ， 而 不 同 的 词 却 代 
表 着 同一 个 意思 。 为 了 避免 信息 的 重复 和 冲突 ， 信 息 抽取 系统 还 需要 
具有 识别 和 处理 这 些 现象 的 能 


根据 近年 来 对 于 信息 抽取 系统 的 局 部 篇 章 处 理 能 力 (指称 短语 的 
共 指 消解 ) 的 评测 结果 来 看 ， 篇 章 处 理 能 力 仍 然 是 目前 信息 抽取 系统 
研制 中 的 弱项 ， 是 一 个 瓶 宽 问题 ， 急 需 深 入 俩 究 。 


作为 一 个 目 然 语 言 处 理 系统 ， 信 息 抽 取 系 统 需 要 强大 知识 库 的 文 
撑 。 在 不 同 的 信息 抽取 系统 中 ， 知 识 库 的 结构 和 内 容 是 不 同 的 ， 但 一 
般 来 说， 任何 一 个 知识 库 都 要 具有 如 下 部 分 : 


1. 一 部 词典 (Lexicon) : 用 于 存放 通用 的 普通 词汇 以 及 领域 的 专 
业 词 汇 的 静态 属性 信息 ; 


2. 一 个 抽取 模式 库 (Extraction Patterns Base) : 其 中 的 每 一 个 模 
式 可 以 进行 附加 的 语义 操作 ， 模 式 库 通常 也 划分 为 一 般 的 通用 部 分 和 
不 同 领域 或 场景 的 专用 部 分 ; 


3. 一 个 基于 知识 本 体 (Ontology) 的 概念 层次 模型 : 这 个 模型 通 
党 是 面 同 特定 领域 或 场景 的 ， 它 是 通用 概念 层次 模型 经 过 局 部 的 细 化 


或 汉化 之 后 而 形成 的 。 


除 此 之 外 ， 用 于 信息 抽取 的 知识 库 还 可 以 配备 篇 草 分 析 和 推理 规 
则 库 、 模 板 填充 规则 库 等 。 


霍 布 斯 (J. Hobbs) 曾 提出 一 个 信息 抽取 系统 的 通用 体系 结构 中 
， 他 将 信息 抽取 系统 抽象 为 “级 联 的 转换 器 或 模块 集合 "， 这 个 集合 利 
用 手工 编制 或 自动 获得 的 规则 在 每 一 步 过 滤 掉 不 相关 的 信息 ， 增 加 新 
的 结构 信息 。 


霍 布 斯 认为 典型 的 信息 抽取 系统 应 当 由 依次 相连 的 如 下 10 个 模块 
组 成 : 


1. 文本 分 块 ， 将 输入 文本 分 割 为 不 同 的 部 分 ， 每 一 个 部 分 趾 
MR o 


2. 预 处 理 : 将 得 到 的 文本 块 转换 为 句子 序列 ， 每 个 句子 由 词汇 项 
( 词 或 特定 类 型 的 短语 ) 及 相关 的 属性 (如 词类 ) 组 成 。 


3. IE: 过 滤 挥 不 相关 的 句子 。 


4. 预 分 析 : 在 词汇 项 (Lexical Items) 序列 中 识别 确定 的 、 小 型 的 
短语 结构 ， 如 名 词 短 语 、 动 词 短 语 、 并 列 结 构 等 。 


5. 分 析 : 通过 分 析 小 型 的 短语 结构 和 词汇 项 的 序列 建立 描述 句子 
结构 的 完整 分 析 树 或 分 析 树 片段 集合 。 


c. 片段 组 合 : 如 果 上 一 步 没 有 得 到 完整 的 分 析 树 ， 则 需要 将 分 析 
树 搬 段 集合 起 来 ， 或 者 将 逻辑 形式 片段 组 合 起 来 ， 以 便 构 成 表示 整个 
句子 的 一 棵 分 析 树 或 其 他 的 逻辑 表示 形式 。 


7. 语义 解释 : 从 分 析 树 或 分 析 树 片段 的 集合 生成 语义 结构 、 意 义 
表示 或 其 他 逻辑 形式 。 


8. 词汇 排 上 层 ， 消解 上 一 模块 中 存在 的 歧义 ， 以 便 得 到 唯一 的 语义 
结构 表示 。 


9. 共 指 消解 或 篇 章 处 理 : 通过 确定 同一 实体 在 文本 不 同 部 分 中 的 
不 同 描述 ， 将 当前 句子 的 语义 结构 表示 合并 到 先前 的 处 理 结果 中 。 


10. 模板 生成 : 根据 文本 的 语义 结构 表示 ， 生 成 最 终 的 模板 。 


当然 ， 并 不 是 所 有 的 信息 抽取 系统 都 明确 包含 上 述 的 所 有 这 些 模 
块 ， 并 且 也 未 必 完 全 遵循 以 上 的 处 理 顺 序 。 例 如 ，6、7 两 个 模块 的 执 
行 顺序 可 能 相反 。 但 一 个 信息 抽取 系统 应 当 包 含 以 上 模块 中 所 描述 的 
功能 。 因 此 ， 霍 布 斯 提出 的 这 个 信息 抽取 系统 的 通用 体系 结构 ， 对 于 
我 们 仍然 是 有 启发 的 。 


言 轧 抽取 系统 通常 是 面 问 特定 的 应 用 领域 或 场景 的 ， 具 有 领域 受 
限 性 。 这 种 领域 受 限 性 决定 了 信息 抽取 系统 中 用 到 的 主要 知识 基本 上 
征 浅 层 知识 。 这 种 浅 层 知识 的 抽象 层次 不 高 ， 通 季 只 适用 于 特定 的 应 
用 领域 ， 很 难 在 其 他 领域 推广 复 用 。 如 采 要 把 一 个 信息 抽取 系统 移植 
到 新 的 领域 或 新 的 场景 ， 开 发 者 必须 要 为 系统 重新 编制 大 量 的 领域 知 


识 。 


一 般 说 来 ， 手 工 编 制 领域 知识 往往 是 枯燥 的 、 费 时 的 、 易 错 的 ， 
费用 也 比较 高 ， 而 且 ， 这 样 的 工作 需要 只 有 专门 知识 的 人 员 来 承担 。 
这 些 人 应 当 具 有 应 用 领域 的 知识 、 知 识 描述 语言 的 知识 ， 并 且 还 要 部 
悉 系统 的 设计 与 实现 技术 。 


根据 数理 语言 学 中 的 齐 夫 定 律 ， 目 然 语言 中 普 遇 存在 着 “长 尾 综合 
效应 ”(long tail syndrome) 器 。 请 看 下 面 的 图 13.7: 


logn 


图 13.7 ”表示 “长 尾 综合 效应 ”的 破碎 折线 


在 图 13.7 中 ， 横 轴 表 示 频 率 词典 中 单词 的 序号 r 的 对 数 logr (按照 
序号 从 小 到 大 的 顺序 排列 ， 从 序号 1 排 起 ) ， 纵 轴 表 示 频 率 词典 中 单词 
的 频率 n 的 对 数 log n 〈 按 照 频率 从 高 到 低 的 顺序 排列 ， 出 现 频率 最 高 的 
单词 的 序号 为 1) ， 试 验证 明 ， 当 15<r<1 500 的 时 候 ， 频 率 相同 的 词 
群 容量 不 大 ， 但 当 r>1 500， 也 就 是 当 词 的 频率 较 小 的 上 时候， 频率 相 
同 的 词 群 的 容量 就 大 大 增加 了 ， 而 且 ， 随 着 频率 的 变 小 ， 频 率 相同 的 
词 群 的 数量 越 来 越 多 ， 其 分 布 形 成 一 条 破碎 折线 。 可 以 清楚 地 看 出 ， 
在 这 条 破碎 折线 的 后 面 一 段 拖 着 一 条 “长 尾 "。 这 样 的 事实 说 明 ， 自 然 
语言 中 的 绝 大 多 数 事实 采用 经 常 出 现 的 、 非 常 少量 的 表达 方式 来 描 
述 ， 而 剩余 的 事实 却 需要 大 量 的 、 不 经 党 出现 的 表达 方式 才能 履 盖 ，， 
因此 才 会 在 曲线 中 出 现 * 长 尾 ”。 


由 于 “长 尾 综合 效应 ”的 影响 ， 人 工 编制 的 知识 库 很 难 达到 很 高 的 
语言 覆盖 面 。 因 此 ， 知 识 获取 问题 已 经 成 为 制约 信息 抽取 技术 广泛 应 
用 的 一 个 主要 障碍 。 它 除了 影响 系统 的 可 移植 性 外 ， 也 是 影响 系统 性 
能 的 主要 因素 。 正 因为 如 此 ， 近 几 年 召开 的 多 次 专题 学 术 人 研讨 会 都 古 
以 解决 知识 获取 问题 、 建 立 具 有 目 适应 能 力 的 信息 抽取 系统 为 主题 
的 。 


领域 知识 获取 可 以 采用 的 策略 通常 有 两 种 ， 一 种 策略 是 “人工 + 辅 
助 工 具 (图 形 用 户 接口 ) ”， 男 一 种 策略 是 “自动 /半自动 + 人 工 校对 ”。 
第 一 种 策略 相对 简单 一 些 ， 以 人 工 工 作为 主体 ， 只 是 在 为 人 工 移植 知 
识 的 时 候 ， 提 供 了 一 些 图 形 化 的 辅助 工具 ， 以 方便 和 加 快 领域 知识 获 
取 过 程 。 第 二 种 策略 采用 有 指导 的 、 无 指导 的 或 间接 指导 的 机 融 学 习 
技术 ， 从 文本 语 料 中 目 动 地 或 半 目 动 地 获取 领域 知识 ， 人 工 干预 的 程 
度 比 较 低 。 


实际 上 ， 这 两 种 策略 不 是 完全 对 立 的 ， 只 是 自动 化 程度 高 低 不 同 
而 已 。 某 种 意义 上 讲 ， 第 一 种 策略 仍然 是 一 种 人 工 编 制 知 识 认 的 过 
程 ， 知 识 租 贷 问题 只 是 得 到 某 种 程度 的 缓解 。 第 二 种 策略 才 是 解决 信 
恩 抽 取 系 统 知识 获取 瓶 贷 问题 的 真正 出 路 。 近 几 年 还 有 不 少 研 究 痢 采 
用 自 举 (bootstrapping) 技术 ， 从 未 经 标注 的 语料库 中 直接 自动 地 进行 
学 习 ， 抽 取出 有 天 的 模式 。 


从 目 然 语言 文本 中 获取 结构 化 信息 的 研究 最 早 开 始 于 20 世 纪 60 年 
代 中 期 ， 这 被 看 作 古 信息 抽取 技术 的 开创 性 研究 ， 它 以 两 个 长 期 的 目 
然 语 言 处 理 研 究 项 目 为 代表 。 


一 个 是 美国 纽约 大 学 开展 的 “语言 串 ” (Linguistic String) 项 目 ， 
该 项 目 开 始 于 20 世 纪 60 年 代 中 期 并 一 直 延 续 到 20 世 纪 80 年 代 。 该 项 目 
的 主要 研究 内 容 是 建立 一 个 大 规模 的 英语 计算 语法 ， 与 之 相关 的 应 用 
是 从 医疗 领域 的 X 光 报告 和 医院 出 院 记 录 中 抽取 “信息 格 
式 ”(Information Formats) ， 这 种 信息 格式 实际 上 就 是 我 们 在 前 面 所 
说 的 “模板 ”(Templates) ° 


男 一 个 相关 的 长 期 项 目 是 由 耶鲁 大 学 尚 克 和 他 的 同事 们 在 20 世 纪 
70 年 代 开 展 的 有 关 故 事理 解 的 研究 。 他 的 学 生 德 容 (Gerald De Jong) 
设计 实现 了 FRUMP 系 统 ， 该 系统 是 根据 故事 脚本 理论 建立 的 一 个 信息 
抽取 系统 ， 可 以 从 新 闻 报 道中 目 动 地 抽取 信息 ， 内 容 涉 及 地 震 、 工 人 
喷 工 等 很 多 领域 或 场景 。 该 系统 采用 了 期 望 驱动 与 数据 驱动 相 结合 的 
人 处理 方法 ， 期 望 驱 动 古 一 种 自 顶 向 下 的 分 析 方 法 ， 使 用 “脚本 ”， 数据 
驱动 是 一 种 自 底 同上 的 分 析 方 法 ， 直 接 从 输入 文本 开始 分 析 。 这 种 期 
望 驱 动 与 数据 驱动 相 结 合 的 处 理 方法 被 后 来 的 许多 信息 抽取 系统 采 
用 o 


从 20 世 纪 80 年 代 末 开始 ， 信 息 抽 取 人 研究 蓬 支 开展 起 来 ， 这 主要 得 
益 于 消息 理解 系列 会 议 (Message Understanding Conference, f PK 
MUC) 的 召开 。MUC 系 列 会 议 使 得 信息 抽取 发 展 成 为 自然 语言 处 理 
领域 一 个 重要 分 文 ， 并 一 直 推 动 这 一 领域 的 研究 向 前 发 展 。 


从 1987 年 开始 到 1998 年 ，MUC 会 议 共 举行 了 七 届 ， 它 由 美国 国防 
高 级 研究 计划 委员 会 (the Defense Advanced Research Projects 
Agency， 简 称 DARPA) 资助 。MUC 的 显著 特点 并 不 在 于 只 是 单纯 地 
吾 开 会 议 ， 而 在 于 在 会 议 期 间 还 要 对 信息 抽取 系统 进行 评测 。 只 有 参 
加 信息 抽取 系统 评测 的 单位 才 被 允许 参加 MUC 会 议 。 在 每 次 MUC 会 
议 前 ， 会 议 组 织 者 首先 癌 各 参加 单位 提供 样 例 的 消息 文本 和 有 天 抽取 
任务 的 说 明 ， 然 后 各 参加 单位 开发 能 够 处 理 这 种 消息 文本 的 信息 抽取 
系统 。 在 正式 会 议 前 ， 各 参加 单位 运行 各 目的 系统 处 理 给 定 的 测试 消 
居 文 本 集合 。 各 参加 单位 都 要 遵循 MUC 系 列 会 议 建立 的 术语 ， 他 们 把 
言 息 抽 取 最 终 的 输出 结果 称 为 “模板 ”(Template)y ， 把 模板 中 的 填充 
THe AH” (Slot) ， 把 把 信息 抽取 过 程 中 使 用 的 匹配 规则 称 为 “ 模 
式 ” (Patem) ， 把 要 提取 的 特定 事件 或 关系 称 为 “ 场 
景 ”(Scenario) 。 而 “领域 ”(Domain) 概念 要 宽泛 一 些 ， 通 常 一 个 领 
域 可 以 包含 多 个 场景 。 例 如 ， 在 金融 这 个 “领域 "的 新 闻 中 ， 可 能 包含 
有 建立 合资 公司 场景 、 股 票 转让 场景 等 很 多 个 “场景 ”。 


MUC 在 评测 时 ， 把 系统 的 输出 结果 与 手工 标注 的 标准 结果 相对 照 
进行 比较 ， 从 而 得 到 最 终 的 评测 结果 。 在 评测 结束 之 后 ， 最 后 才 召 开 
所 谓 的 “会 议 ”， 在 会 议 上 由 参加 单位 交流 目 己 的 想法 和 感受 。 所 以 ， 
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这 种 评测 驱动 的 会 议 模 式 后 来 得 到 广泛 认可 ， 在 目 然 语言 处 理 的 
其 他 领域 也 召开 了 类 似 的 评测 驱动 的 会 议 。 例 如 ， 从 1992 年 开始 举行 


的 文本 检索 会 议 TREC 等 ， 也 是 评测 驱动 的 会 议 。 


从 历次 MUC 会 议 ， 可 以 清楚 地 看 到 信息 抽取 技术 发 展 的 历程 。 


1987 年 5 月 举行 的 首届 MUC-1 会 议 基 本 上 是 探索 性 的 ， 没 有 定义 
明确 的 任务 ， 也 没有 制定 评测 标准 。 总 共有 6 个 系统 参加 ， 所 处 理 的 文 
本 是 海军 军事 情报 ， 每 个 系统 的 输出 格式 都 不 一 样 。 


MUC-2 于 1989 年 5 月 举行 ， 共 有 8 个 系统 参加 ， 处 理 的 文本 类 型 与 
MUC-1 一 样 。MUC-2 开 始 明 确 地 定义 任务 ， 规 定 了 模板 以 及 槽 的 填充 
规则 ， 抽 取 任 务 被 明确 地 定义 为 一 个 模板 填充 的 过 程 。 


MUC-3 于 1991 年 5 月 举行 ， 共 有 15 个 系统 参加 ， 抽 取 任 务 是 从 新 
闻 报 告 中 抽取 拉丁 美洲 恐怖 事件 的 信息 ， 定 义 的 抽取 模板 由 18 个 模 组 
成 。 从 MUC-3 开 始 引 入 正式 的 评测 标准 ， 其 中 借用 了 信息 检索 领域 采 
用 的 一 些 评 测 指标 ， 如 召回 率 和 准确 率 等 。 


MUC-4 于 1992 年 6 月 举行 ， 共 有 17 个 系统 参加 ， 任 务 与 MUC-3 一 
样 ， 仍 然 是 从 新 闻 报 告 中 抽取 芍 居 事件 信息 。 但 抽取 模板 变 得 更 加 复 
杂 ， 总 共 由 24 个 槽 组成。 从 这 次 会 议 开 始 MUC 被 纳入 TIPSTER 文 本 项 
目 3。 


MUC-5 于 1993 年 8 月 举行 ， 共 有 17 个 系统 参加 : 美国 14 个 ， 英 
` 加 拿 大 、 日 本 各 一 个 。 此 次 会 议 设计 了 两 个 目标 场景 : 一 个 是 金 
融 领 域 中 的 公司 合资 情况 ， 一 个 是 微 电 子 技术 领域 中 四 种 心 斤 制 造 处 
理 技术 的 进展 情况 。 除 英语 外 ，MUC-5 还 对 日 语 信息 抽取 系统 进行 了 
测试 。 在 本 次 会 议 上 上， 组织 者 尝试 采用 平均 填充 错误 率 (Error Per 
Response Fil， 人 简称 ERR) 作为 主要 评价 指标 。 与 以 前 相 比 ，MUC-5 抽 
取 任 务 的 复杂 性 更 大 ， 比 如 公司 合资 场景 需要 填充 11 种 子 模板 总 共 47 


个 槽 ， 仅 仅 任 务 描述 文档 束 有 40 多 页 。MUC-5 的 模板 和 覃 填充 规范 是 
MUC 系 列 评测 中 最 复杂 的 。MUC-5 的 一 个 重要 创新 是 引入 了 髓 套 的 模 
板结 构 。 信 息 抽取 模板 不 再 是 局 平 结构 (flat structure) 的 单个 模板 ， 
而 是 借 鉴 面 回 对 象 和 框 洪 知识 表示 的 思想 ， 由 多 个 和子 模板 舱 套 组 成 。 
模板 中 每 个 槽 的 取 值 除了 可 以 是 文本 串 (如 公司 名 ) AE (如 
将 日 期 、 时 间 、 人 金额 等 文本 描述 转化 为 某 种 规范 形式 ) 、 有 限 集合 

的 元 素 《如 组 织 类 型 可 以 分 为 公司 、 政 府 部 门 、 研 究 机 构 等 ) 外， 还 
可 以 古 指 疝 男 一 个 于 模板 的 指针 。 


MUC-6 于 1995 年 9 月 举行 ， 训 练 时 的 目标 场景 是 劳动 争议 的 协商 
情况 ， 测 试 时 的 目标 场景 是 公司 管理 人 员 的 职务 变动 情况 ， 共 有 16 家 
单位 参加 了 这 次 会 议 。MUC-6 的 评测 更 为 细致 ， 强 调 系统 的 可 移植 性 
以 及 对 文本 的 深层 理解 能 力 。 除 了 原 有 的 场景 模板 (Scenario 
Templates) 填充 任务 之 外 ， 又 引入 三 个 新 的 评测 任务 : 命名 实体 
(Named Entity) 识别 、 共 指 (Coreference) 关系 确定、 模板 元 素 
(Template Element) 填充 等 。 命 名 实体 识别 任务 主要 是 要 识别 出 文本 
中 出 现 的 专 有 名 称 和 有 意义 的 数量 短语 等 命名 实体 并 加 以 归 类 ; 共 指 
天 系 确 定 任务 是 要 识别 出 给 定 文本 中 的 参照 表达 式 ， 并 确定 这 些 表达 
式 之 间 的 共 指 关系 ; 模板 元 素 填充 任务 是 要 识别 出 特定 类 型 的 所 有 实 
体 以 及 它们 的 属性 特征 。 


MUC-7 于 1998 年 4 月 举行 。 训 练 时 的 目标 场景 是 飞机 失事 事件 ， 
测试 时 的 目标 场景 是 航天 器 〈 火 箭 / 导 弹 ) 发 射 事件 。 除 MUC-6 已 有 的 
四 项 评测 任务 外 ，MUC-7 又 增加 了 一 项 新 任务 : 评测 模板 之 间 的 关 
系 ， 其 目的 在 于 确定 实体 之 间 与 特定 领域 无 天 的 那些 关系。 共有 18 家 
单位 参加 了 MUC-7 评 测 。 值 得 注意 的 是 ， 在 MUC-6 和 MUC-7 中 ， 开 发 


者 只 允许 用 四 周 的 时 间 进 行 系统 的 移植 ， 而 在 先前 的 评测 中 第 种 允许 
开发 者 有 6 一 9 个 月 的 移植 时 间 。 


言 息 抽取 经 过 二 十 多 年 尤其 是 最 近 十 多 年 的 发 展 ， 已 经 成 为 目 然 
语言 处 理 领 域 一 个 重要 的 分 文 ， 在 信息 抽取 研究 中 提出 的 一 些 思想 ， 
例如 ， 通 过 系统 化 的 、 大 规模 的 定量 评测 推动 研究 同 前 发 展 ， 局 部 分 
析 技 术 的 有 效 性 ， 快 速 NLP (Natural Language Processing) 系统 开发 
的 必要 性 ， 知 识 工 程 研 究 以 及 软件 工程 技术 的 重要 性 ， 等 等 ， 这 些 思 
想 对 于 目 然 语言 处 理 的 其 他 领域 ,都 是 很 有 局 发 的 。 信 息 抽取 人 研究 独 
特 的 发 展 轨迹 ， 极 大 地 推动 了 目 然 语 言 处 理 研 究 的 发 展 ， 局 发 着 目 然 
语言 处 理 的 研究 人 员 面 向 实际 的 应 用 ， 重 新 考虑 他 们 的 研究 重点 ， 开 
始 重视 解决 过 去 曾 被 忽视 的 一 些 深 层 问 题 ， 如 语义 特征 标注 、 共 指 消 
解 、 篇 章 分 析 等 等 。 


目前 ， 有 两 个 最 主要 的 因素 影响 着 信息 抽取 技术 的 广 沁 应 用 。 一 
个 因素 古 信息 抽取 系统 性 能 ， 一 个 因素 是 系统 的 可 移植 能 力 。 今 后 信 
恩 抽 取 的 研究 将 紧 紧 围绕 如 何 殉 服 和 解决 这 两 个 因素 引起 的 问题 而 展 
开 ， 重 点 解决 知识 获取 、 篇 章 分 析 、 高 效 句法 分 析 等 问题 ， 不 断 提 高 
言 思 抽取 系统 的 性 能 、 增 强 信息 抽取 系统 的 可 移植 能 
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本 节 讨 论 单 文档 与 多 文档 的 自动 文摘 (automatic text 
summarization) ， 介 绍 自动 文摘 的 主要 方法 。 


早 在 20 世 纪 50 年 代 末 和 60 年 代 初 ， 户 恩 和 埃 德 演 和 森 
(Edmundson) 就 采用 计算 机 进行 了 自动 文摘 的 试验 。 但 由 于 自动 文 


摘 难 度 很 大 ， 不 和 久 殉 沉 条 下 去 了 。 


在 沉 穆 了 几 十 年 后 ， 随 痢 计 算 机 的 内 存 和 运算 速度 的 不 断 提 高 ， 
网 上 文档 与 在 线 文本 数据 库 不 断 激增 ， 计 算 机 目 动 文摘 重新 引起 了 人 
们 的 重视 。 


所 谓 目 动 文 摘 ， 束 是 从 一 个 或 多 个 文本 中 目 动 地 摘 取 包含 了 原文 
中 最 重要 信息 的 部 分 。 如 采 从 一 个 文本 中 摘 取 ， 束 是 单 文档 目 动 文 
摘 ， 如 果 从 多 个 文档 中 摘 取 ， 束 古 多 文档 目 动 文摘 。 


国外 目 动 文摘 的 实验 说 明 ， 目 动 文摘 的 长 度 最 好 不 要 超过 被 摘 原 
文 长 度 的 35%， 但 也 不 要 低 于 被 摘 原文 长 度 的 15%。 如 末了 文摘 过 长 ， 
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长 度 欣 制 在 适当 的 范围 之 内 。 


被 摘 的 文本 包括 多 媒体 文本 文件 、 在 线 文 本 文件 、 超 文本 等 多 种 
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目前 公认 的 摘要 类 型 包括 指示 性 摘要 、 信 息 性 的 摘要 和 抽取 性 摘 
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指示 性 摘要 提供 原文 的 主要 思想 ， 但 并 不 提供 原文 的 任何 内 容 。 


言 轧 性 的 摘要 提供 原文 中 经 浓 被 别人 引用 的 信息 请 段 。 


抽取 性 摘要 从 原文 中 摘录 出 单词 、 句 子 等 等 ,然后 再 对 这 些 单 词 
或 者 句子 进行 重新 组 合 ， 生 成 摘要 。 


一 般 说 来 ， 目 动 文摘 要 经 过 三 个 步 又， 主题 识别 ， 主 题 融合 ， 文 
摘 生 成 。 分 述 如 下 : 


自动 文摘 的 第 一 个 步骤 是 主题 识别 (topicidentification) ° 主题 是 
我 们 写 文章 或 者 讨论 问题 时 的 主要 话题 。 一 旦 系统 识别 了 文章 中 的 最 
重要 单位 〈 单 词 、 句 子 、 段 落 、 等 等 ) ， 就 可 以 简单 的 把 它们 排列 出 
来 ， 从 中 抽取 信息 ， 或 者 以 图 表 的 方式 展示 它们 ， 提 供 图 表 式 的 摘 
要 ， 这 样 ， 我 们 就 可 以 说 系统 识别 了 文章 的 主题 。 在 通常 的 情况 下 ， 
主题 识别 需要 多 种 技术 互相 补充 。 


计算 机 主题 识别 的 时 候 ， 所 提取 的 信息 是 不 连续 的 ， 信 息 中 省 略 
了 原文 主题 连接 的 关联 词语 ， 而 且 有 重复 摘 取 及 遗漏 的 情况 ， 所 以 文 
摘 的 可 读 性 较 差 ， 并 且 不 连贯 。 因 此 自动 文摘 系统 有 一 个 步骤 专门 用 
来 重新 组 合 提取 出 来 的 摘要 信息 ， 生 成 具有 可 读 性 的 摘要 。 在 基于 信 
恩 抽 取 的 摘要 实例 中 ， 摘 要 生成 可 以 简单 的 认为 是 “修饰 "从 原文 中 摘 
取 的 片断 ， 使 之 成 为 连贯 的 文本 。 


为 了 完成 这 个 步 又， 几乎 所 有 的 目 动 摘要 系统 都 采用 了 多 个 独立 
的 识别 模块 。 每 一 个 独立 模块 都 对 输入 的 源 文本 (单词 、 句 子 、 段 
落 ) 进行 打分 ， 然 后 用 一 个 综合 模块 对 所 有 打分 模块 所 打 的 分 数 进 行 
综合 评估 ， 最 后 得 到 一 个 分 数 排 行 。 系 统 可 以 根据 用 户 所 需要 的 摘要 
长 度 ， 按 分 数 排行 从 高 到 低 的 顺序 ， 选 择 目 动 摘 取 出 来 的 文摘 提供 给 
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在 目 动 文 摘 中 ， 搞 取 的 信息 以 什么 为 基本 单位 是 一 个 比较 普遍 的 
问题 。 大 多 数 摘 要 系统 都 是 以 句子 为 基本 单位 ， 有 的 学 者 认为 ， 以 于 
fj (clause) 为 基本 单位 进行 自动 摘要 ， 可 以 获得 更 多 的 信息 。 有 的 学 


者 认为 ， 与 重要 的 句子 紧 紧 相连 的 句子 可 以 作为 摘要 句 的 重要 参考 信 
思 ， 这 样 可 以 减少 摘要 出 来 的 句子 的 指称 的 不 确定 性 。 


主题 识别 的 性 能 一 般 用 召回 率 和 准确 率 来 评估 。 给 定 一 个 源 文 
本 ,分 别 做 目 动 摘要 和 人 工 摘要 ， 然 后 把 系统 的 摘要 和 人 工 的 摘要 进 
行 比较 ， 确 定 目 动 文摘 系统 所 得 出 的 结果 与 人 工 所 得 出 的 结果 的 相似 
度 ， 计 算 其 准确 率 和 召回 率 。 


主题 识别 有 如 下 方法 : 


根据 位 置 来 识别 主题 ， 不 同体 裁 的 文章 的 结构 在 位 置 上 都 有 一 定 
的 规律 。 一 般 说 来 ， 在 文章 的 头 信 息 、 标 题 或 第 一 个 目 然 段 中 ， 往 往 
含有 文章 的 重要 信息 。 例 如 ， 对 于 新 闻 和 报纸 来 说 ， 第 一 个 上 自然 段 往 
往 包 含 重要 信息 ， 因 此 ， 最 人 简单 的 摘要 方法 就 是 摘 取 文 章 的 第 一 个 日 
然 段 。1997 年 ， 托 依 伏 尔 (Teufel) MER (Moens) 采用 根据 位 置 识 
别 主题 的 方法 ， 从 报纸 ， 目 然 科 学 和 技术 类 文章 中 抽取 33% 的 句子 作 
为 摘要 ， 效 果 民 好 。 


由 于 不 同体 裁 的 文革 主题 所 在 的 位 置 各 有 差异 ， 为 了 自动 确立 最 
佳 的 位 置 和 取得 高 质量 的 摘要 ， 霍 维 (Hovy) 和 林 (Lin) 在 1997 年 
定义 了 面向 某 个 领域 和 特定 体裁 的 最 优 位 置 策 略 (Optimum Position 
Policy， 简 称 OPP) ， 以 此 作为 句子 排名 的 依据 ， 并 且 描 述 了 构建 最 优 
位 置 的 方法 。 


根据 线索 词 来 识别 主题 : 在 一 定 的 体裁 中 ， 有 一 些 单词 或 者 词语 
可 以 暗示 接 下 来 将 有 重要 的 句子 出 现 ， 因 此 ， 这 些 句 子 就 应 该 是 被 摘 
取出 来 的 对 象 ， 这 样 的 单词 或 者 词语 叫做 “线索 词 ” (cue phrase 
indicators) 。 例 如 ， 在 英语 中 ，significant (“重要 的 ”) , in this paper 


we show (“本 文中 我 们 论述 了 ”) 等 词语 就 是 这 样 的 线索 词 ， 它 们 后 面 
出 现 的 句子 往往 可 以 作为 摘 取 的 对 象 。 1997 年 ， 托 依 伏 尔 和 摩 恩 利用 
他 们 从 某 一 科学 体裁 的 文本 中 手工 选取 的 1423 个 线索 词 来 进行 自动 文 
摘 ， 获 得 了 54% 的 正确 率 与 召回 率 。 当 然 ， 这 些 线索 词 提 供 的 线索 的 
好 坏 不 完全 一 样 ， 因 此 ， 他 们 还 手工 给 每 一 个 线索 词 一 个 分 值 无论 
正面 或 者 负面 ) ， 用 来 计算 线索 词 的 权重 。1999 年 ， 托 依 伏 尔 和 摩 轧 
又 对 他 们 的 理论 进行 了 扩展 ， 他 们 认为 ， 线 索 词 不 只 是 暗示 了 有 关 句 
子 的 重要 性 ， 而 且 还 能 暗示 某 个 句 群 或 者 段落 的 在 文章 中 的 作用 ， 例 
如 ， 文 章 的 目的 、 背 景 、 解 决 办 法 、 结 论 、 主 张 等 。 因 此 ， 他 们 使 用 
线索 词 来 预示 文章 中 重要 的 段落 或 句 群 。 


根据 词语 频率 的 特异 性 来 识别 主题 ， 在 文本 中 ， 有 些 单词 出 现 的 
频率 非常 高 ， 有 的 单词 出 现 的 频率 一 般 高 ， 而 有 的 单词 出 现 的 频率 很 
低 ， 单 词 的 出 现 频 率 苯 从 齐 夫 定律 ， 齐 夫 定 律 的 曲线 可 以 描述 文本 中 
单词 的 正和 划分 布 状态 。 如 果 行 摘 文 本 中 某 些 词语 的 频率 异 于 这 样 的 正 
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征 显 示 主 题 的 很 重要 的 句子 ， 应 当 作 为 摘 取 的 对 象 。 


根据 文章 标题 和 查询 提问 来 识别 主题 ， 在 文章 的 标题 或 者 在 文章 
页 首 的 文字 中 含有 的 词语 往往 预示 的 文章 的 之 主题 ， 用 户 用 于 查询 提 
问 的 词语 也 往往 预示 了 文章 的 主题 ， 这 些 词语 叫做 “期 望 词 ”(desirable 
words) 。 可 以 根据 期 望 词 为 线索 ， 对 于 句子 的 重要 性 进行 打分 ， 从 而 
识别 文章 的 主题 。 


根据 词语 之 间 的 连贯 性 来 识别 主题 : 文本 中 句子 所 包含 的 词语 的 
连贯 性 可 以 通过 复 指 、 共 指 、 同 义 关 系 、 语 义 关 系 等 方式 表示 出 来 ， 
句子 中 所 包 侣 的 词语 的 连贯 度 越 高 ， 句 子 练习 束 越 紧密 ， 而 联系 越 紧 


密 的 句子 就 有 可 能 越 重要 。 可 以 根据 句子 的 连贯 性 打分 ， 从 而 识别 文 
章 的 主题 。 


HE (Mani) 和 布 洛 多 恩 (Bloedom) 认为 文本 是 一 个 图 表 ， 文 
本 中 的 词 束 是 图 表 的 结 点 ， 结 点 之 间 的 弧 线 代表 了 词语 之 间 的 连贯 
性 ， 可 以 通过 弧 线 来 识别 图 表 。 


根据 话语 结构 来 识别 主题 : 1987 年 ， 曼 (W. Mann) 和 汤姆 森 

(S. Thompson) 在 《修辞 结构 理论 ;一 种 文本 组 织 的 理论 》 
(Rhetorical Structure Theory: A Theory of Text Organization) 一 文 
中 ， 提 出 “修辞 结构 理论 ” (Rhetorical Structure Theory, fai #K A 
RST) 。 这 是 一 种 基于 文本 局 部 之 间 关 系 的 关于 文本 组 织 的 描述 理 


论 。 


例如 ， 研 究 下 面 的 两 个 段落 : 


a. I love to collect classic automobiles. My favorite car is my 1899 
Duryea. (我 喜欢 收集 古典 汽车 。 我 最 中 意 的 汽车 是 我 那 辆 1899 年 的 
Duryea 汽 车 。 ) 


b. I love to collect classic automobiles. My favorite car is my 1999 
Toyota，《〈 我 喜欢 收集 古典 汽车 。 我 最 中 意 的 汽车 是 我 那 辆 1999 年 
的 "丰田 "汽车 。) 


段落 a 是 有 意义 的 ， 它 表示 了 说 话 人 喜欢 1899 年 的 Duryea 汽 车 的 事 
实 ， 这 个 事实 很 自然 地 紧 接 着 他 喜欢 古典 汽车 的 事实 。 而 段落 b 则 是 有 
缺陷 的 。 这 种 缺陷 并 不 是 单个 句子 的 问题 ， 段 落 b 中 的 单个 的 句子 单独 
看 起 来 都 是 完美 的 ， 缺 陷 在 于 它们 在 意思 上 的 结合 不 好 ，1999 年 的 “让 
田 ” 汽 车 显然 不 是 古典 汽车 。 不 过 ， 两 个 句子 顺序 排列 的 事实 暗示 它们 


之 间 具 有 某 种 连贯 关系 ， 而 段落 a 和 段落 b 的 连贯 关系 是 不 同 的 。 对 于 
段落 a 来 说 ， 这 种 关系 具有 详 述 (elaboration) 关系 的 特征 。 而 对 于 段 
落 b 来 说 ， 这 种 关系 则 具有 对 照 (contrast) 关系 的 特征 ， 因 此 ， 段 落 b 
应 当 更 恰当 的 表示 为 : 


I love to collect classic automobiles. However, my favorite car is my 
1999 Toyota. (我 喜欢 收集 古典 汽车 。 然 而 ， 我 最 中 意 的 汽车 是 我 那 辆 
1999 年 的 “丰田 ”汽车 。) 


这 里 ，“however” 明 显 地 将 对 照 关 系 的 信号 传递 给 读者 ， 这 个 段落 
在 意思 上 也 天 顺畅 多 了 ° 


从 理论 构建 的 一 开始 ， 修 辞 结构 理论 的 黄 基 者 束 认 为 ， 话 语 的 结 
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的 ;注意 和 意图 被 认为 是 文本 中 相互 独立 又 相互 作用 的 方面 ， 语 言 形 
式 、 语 言 功能 和 话语 结构 互相 联系 的 方式 是 一 种 松散 的 相互 制约 的 方 
式 ， 而 不 是 某 种 类 似 于 “一 一 映射 ”的 方式 。 因 此 并 不 总 有 什么 特定 的 
词汇 或 语法 形式 惟一 地 标记 结构 特征 。 


修辞 结构 理论 的 核心 是 修辞 关系 的 概念 。 修 辞 关 系 (Rhetorical 
Relation) 是 存在 于 两 个 互 不 重 且 的 文本 跨 段 (Text Span) 之 间 的 关系 
(当然 也 有 一 些 例外 ) ， 这 两 个 文本 跨 段 一 个 叫 “ 核 心 单 
元 ”(Nucleus) ， 一 个 叫 “ 卫 星 单元 ”(Satellite) 。 这 种 对 核心 和 卫星 
的 区 分 来 自 经 验 观 察 。 例 如 ， 在 上 面 的 段落 a 中 ,，“Ilove to collect 
classic automobiles” 这 个 片断 是 核心 单元 ，“My favorite car is my 1899 
Duryea” 这 个 片断 是 卫星 单元 。 核 心 单元 与 卫星 单元 的 划分 说 明 ， 许 多 
修辞 关系 是 非 对 称 的 。 这 里 第 二 个 片断 是 根据 第 一 个 片断 来 解释 的 ， 
(Be CMAP o 下面 我 们 将 看 到 并 不 是 所 有 的 修辞 天 系 都 是 非 对称 


的 。 修 蔡 结 构 关 系 是 根据 它们 施加 于 核心 、 外 围 、 以 及 核心 和 外 围 的 
结合 处 的 约束 来 定义 的 。 


1997 年 ， 马 尔 库 (Marcu) 根据 修辞 结构 理论 ， 提 出 了 一 个 复杂 
的 目 动 文摘 方法 ， 这 个 方法 使 用 修辞 结构 理论 来 识别 竺 摘 文 本 淤 在 的 
话语 中 心 ， 对 句子 进行 打分 ， 并 利用 话语 的 框架 和 内 容 的 树 形 图 ， 把 
多 种 方法 相互 结合 起 来 识别 文章 的 主题 。 马 尔 库 的 算法 对 美国 目 然 科 
学 文本 的 目 动 摘要 几乎 达到 了 人 工 摘要 的 水 平 。 


使 用 多 种 方法 相 结合 的 算法 来 识别 主题 : 自动 文摘 的 研究 人 员 发 
现 ， 不 同 的 目 动 摘要 方法 基本 都 被 采用 过 了 ， 实 践 证 明 没 有 哪 一 种 方 
enn; 在 多 数 情况 下 ， 由 于 每 一 种 方法 都 有 目 己 的 优点 ， 把 多 
种 方法 结合 起 来 束 可 以 取得 更 好 的 成 绩 。 


1955 年 ， 库 皮 克 (Kupiec) ` MIFA (Pedersen) 和 陈 (Chen) 

在 他 们 里 程 碑 式 的 工作 中 ， 训 练 了 一 个 贝 叶 斯 概率 分 类 器 ， 他 们 通过 
对 段落 的 位 置 、 线 索 词 的 指示 作用 、 词 语 的 频率 、 大 写字 和 母 的 词 以 及 
句子 的 长 度 等 特征 的 统计 分 析 结 果 ， 计 算 了 任何 一 个 句子 在 文摘 中 出 
现 的 可 能 性 。 他 们 发 现 ， 段 落 的 位 置 特征 在 自动 文摘 中 可 以 提供 33% 
的 准确 率 ， 通 过 线索 词 的 方法 可 以 得 到 29% 的 准确 率 。 但 是 两 种 办 法 
结合 起 来 却 只 能 达到 42% 的 准确 率 ， 比 位 置 特 征 与 线索 词 单个 相 加 

(33%+29%) 要 低 20%。 如 果 把 上 述 的 位 置 特征 、 线 索 词 、 频 率 特异 
性 、 文 章 标 题 和 查询 提问 、 连 贯 性 5 种 方法 同时 混合 采用 ， 也 只 有 42% 
的 准确 率 。 


同样 利用 贝 叶 斯 概率 分 类 ， 奥 纳 (Aone) 等 人 发 现在 单一 的 体裁 
中 ， 不 同 的 报纸 也 要 来 用 不 同 的 特征 相 结 合 的 办 法 ， 才 能 取得 较 好 的 
效果 。 


步骤 2: 主题 融合 


如 果 只 是 把 使 用 上 壕 方法 摘出 来 的 结 采 排列 起 来 ， 不 加 进一步 的 
阐释 (interpretation) ， 那 么 ， 这 样 得 到 的 系统 只 能 算是 一 个 摘录 系统 
(abstract-type system) ， 而 不 能 算是 一 个 摘要 系统 (extract-type 
summarization system) 。 在 阐释 时 ， 系 统 要 把 主题 识别 作为 一 个 重要 
的 因素 融合 起 来 了 ， 使 用 新 的 术语 和 新 的 形式 来 表达 摘要 的 内 容 ， 在 
进行 这 样 的 表达 时 ， 可 能 使 用 原文 中 没有 的 概念 和 词语 。 这 个 步骤 叫 
做 主题 融合 。 


事实 证 明 ， 如 果 系 统 没 有 预先 加 载 某 一 领域 的 相关 知识 ， 那 么 整 
很 难 执行 亲 释 功能 。 在 目前 的 技术 水 平 下 ， 由 于 获得 某 一 领域 的 知识 
还 非 党 困难， 所以， 我们 只 能 在 一 个 很 小 的 领域 进行 阐释 。 目 前 还 没 
有 目 动 文摘 系统 能 够 从 源 文 本 中 目 动 地 获取 各 个 领域 的 知识 ， 从 而 进 
行 这 样 的 阐释 。 


在 阐释 中 使 用 模板 ， 对 目 动 文摘 看 起 来 可 能 会 有 帮助 。 但 是 ， 建 
立 这 种 模板 结构 并 且 正 确 地 填充 它们 是 很 困难 的 ， 目 前 来 说 ， 我 们 还 
不 能 利用 模板 来 进行 大 规模 的 目 动 文摘 。 


19994£E , ZZ (Hovy) 和 林 (Lin) 使 用 主题 签名 (topic 
signature) 和 单词 之 间 的 关联 技术 进行 主题 的 融合 。 他 们 通过 主题 签 
名 的 重合 情况 对 句子 进行 打分 ， 运 用 主题 签名 来 进行 主题 识别 ， 他 们 
又 以 中 心 词 来 代替 句子 内 的 多 个 单词 ， 来 进行 主题 前 释 。 通 过 上 自动 构 
建 主题 签名 ， 他 们 克服 了 主题 曾 释 时 的 知识 短缺 问题 。 


目前 ， 领 域 知识 的 目 动 获 取 仍然 阻碍 了 阐释 的 进行 ， 这 十 目 动 文 
摘 曾 释 的 瓶颈 问题 。 


步骤 3: 文摘 生成 


目 动 文 摘 的 第 三 步 是 文摘 的 生成 。 当 文摘 的 内 容 通过 摘 永 或 抽取 
技术 提取 出 来 之 后 ， 殊 要 把 它们 转化 为 目 然 语言 输出 给 用 户 ， 为 了 便 
于 用 户 阅 读 和 理解 ， 有 必要 对 这 些 零 星 的 、 人 简单 的 摘要 进行 加 工 ， 通 
过 文本 规划 、 句 子规 划 ， 最 后 生成 流畅 可 读 的 目 然 语言 句 和 于 。 这 个 步 
又 器 是 文摘 生成 。 


对 于 单纯 的 摘录 系统 (abstract-type system) ， 只 要 把 摘 取 出 来 的 
结 采 列举 出 来 就 行 了 ， 不 需要 进行 文摘 生成 。 不 过 ， 在 这 样 的 情况 
下 ， 不 管 摘 取 的 结果 是 按 原来 的 顺序 排列 还 是 按 句 子 得 分 的 高 低 进 行 
排列 ， 最 后 得 到 的 文本 一 般 都 是 不 流畅 的 。 


赫 尔 斯 特等 人 提出 了 一 种 平滑 算法 ， 可 以 识别 和 修复 最 典型 的 摘 
要 不 流畅 现象 。 玛 尼 ， 盖 菩 (Gates) 和 布 洛 多 恩 在 1999 年 提出 了 一 个 
摘要 修订 方案 ， 他 们 对 提取 出 来 的 摘要 片断 进行 组 合 ， 可 以 生成 简单 
的 、 可 读 性 较 好 的 摘要 文本 。 


在 文摘 生成 中 ， 文 本 压缩 是 一 种 很 有 前 景 的 方法 。 力 伊 特 和 马尔 
库 使 用 期 望 最 大 算法 (Expectation Maximum ， 简 称 EM 算 法 ) 训练 系 
统 ， 压 缩 句 子 的 句法 分 析 树 ， 可 以 生成 一 个 单一 、 简 单 的 句子 。 根 据 
他 们 的 方法 ， 两 个 句子 可 以 压缩 成 一 个 句子 ， 三 个 句子 可 以 压缩 成 二 
个 甚至 一 个 和 句子， 从 而 进行 文摘 的 生成 。 


1999££, Ayes (Mckeown) FIF) (Jing) 从 文本 生成 的 角度 来 
提取 摘要 。 他 们 认为 ， 摘 要 常常 是 被 摘 文本 中 的 一 些 零 星 的 可 切 片断 
组 合 而 成 的 ， 组 合 时 有 必要 确定 这 些 句子 片断 的 重要 性 ， 根 据 重 要 性 
把 它们 组 织 成 符合 语法 的 段落 。 使 用 这 样 的 方法 得 到 的 目 动 文摘 能 够 
较 准 确 地 代表 被 摘 文 本 的 内 容 。 


目前 研制 的 大 多 数目 动 文摘 系统 只 包括 了 步 怠 1， 主题 识别。 


上 有 述 的 单 文档 的 目 动 文摘 已 经 是 很 困难 的 了 。 如 采 对 多 个 主题 相 
天 的 文档 进行 摘要 ， 更 加 具有 挑战 性 。 


多 文档 上 自动 文摘 是 目前 自动 文摘 研究 的 一 个 热点 ， 可 以 用 于 海量 
信息 的 目 动 汇总 ， 尤 其 可 以 用 于 汇总 互联 网 上 针对 某 一 特定 事件 的 来 
自 不 同文 档 的 多 种 信息 。 例 如 ， 当 世界 上 发 生 重大 的 事件 时 ， 往 往 会 
有 不 同 来 源 、 不 同方 面 的 报道 ， 读 者 如 条 想 了 解 事件 发 生 的 详细 情 
况 ， 需 要 阅读 大 量 的 相关 报道 ， 这 要 人 花费 很 多 的 时 间 和 精力 。 如 采 我 
们 使 用 多 文档 文摘 技术 ， 把 有 关 某 个 事件 的 大 量 信息 汇总 在 较 短 的 文 
摘 之 中 ， 就 可 以 大 大 地 市 省 读者 阅读 大 量 报道 的 时 间 。 


多 文档 目 动 文摘 结束 还 可 以 应 用 于 历史 事件 的 整理 ， 连 续 事 件 的 
追踪 。 例 如 ， 对 于 事件 的 持续 关注 ， 事 件 的 发 生 、 发 展 到 结束 的 各 个 
阶段 的 相关 信息 ， 痢 可 以 使 用 多 文档 目 动 文摘 摘 取 事 件 的 主要 内 容 ， 
并 且 把 这 些 内 容 按 照 事 件 发 展 的 顺序 组 织 起 来 ， 使 读者 通过 阅读 文 
摘 ， 迅 速 了 解 整个 事件 的 轮廓 。 基 于 主题 查询 的 多 文档 文摘 则 可 以 进 
一 步 考 虑 用 户 的 查询 要 求 ， 从 与 特定 事件 的 相关 的 大 量 文档 中 ， 目 动 
生成 用 户 需要 的 相关 内 容 。 


在 对 多 个 文档 进行 文摘 时 ， 为 了 避免 见 余 ， 必 须 辨认 和 找 出 这 些 
文档 的 主题 之 间 是 否 有 重合 ， 还 要 处 理 好 多 个 文档 在 摘要 的 时 候 出 现 
的 不 一 致 性 ， 如 采 有 必要 ， 可 以 通过 时 间 线 索 对 摘 取 进来 的 事件 进行 
组 织 。 鉴 于 这 些 原 因 ， 多 文档 目 动 文摘 没有 单 文 档 目 动 文摘 发 展 得 
快 S 


2001 年 ， 马 尔 库 和 盖 尔 布 (Gerber) 使 用 一 个 简单 的 程序 对 报纸 
类 体裁 的 文章 进行 多 文档 文摘 ， 生 成 的 文摘 十 分 完善 ， 令 人 满意 。 当 
然 ， 对 于 更 加 复杂 的 体裁 ， 比 如 传记 类 文体 和 对 事物 的 描述 性 的 文 
体 ， 这 样 简单 的 程序 瓯 显得 无 能 为 力 了 。 


看 来 ， 多 文档 的 目 动 文摘 的 实用 化 ， 还 有 很 长 的 一 段 路 要 走 。 


目 动 文摘 研究 中 最 第 涉及 到 的 钙 目 前 国际 上 最 为 重要 的 文摘 评测 


SW: 一 个 会 议 叫 做 文档 理解 会 议 (Document Understanding 
Conference， 简 称 DUC) ， 一 个 会 议 叫做 文本 分 析 会 议 (Text Analysis 


Conference， 人 简称 TAC) 。 这 两 个 会 议 都 确定 了 文档 摘要 任务 。DUC 
从 2001 年 以 来 进行 了 多 种 文档 摘要 任务 的 评测 ， 从 2008 年 开始 ，DUC 
的 文摘 评测 任务 并 入 TAC 评 测 。 其 他 相关 的 评测 会 议 还 有 : 多 语言 文 
摘 评 估 (Multilingual Summarization Evaluation， 人 简称 MSE) ， 文 本 文 
摘 挑战 (Text Summarization Challenge， 简 称 TSC) ，TREC 等 会 议 。 
这 些 会 议 涉及 各 种 自动 文摘 任务 ， 给 出 了 较为 权威 的 文摘 评测 方法 和 


结果 。 
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第 十 四 章 MARA 


目 然 语 言 的 文本 中 强 茂 厦大 量 丰 是 的 信息 ， 但 是 ， 目 然 语 言 却 对 
这 些 信息 进行 了 编码 ， 把 这 些 信息 隐藏 在 文本 当中 ， 使 它们 成 了 一 种 
难以 解释 的 形式 。 可 能 正 是 因为 这 样 的 原因 ， 在 过 去 的 目 然 语言 处 理 
中 ， 很 少 有 人 去 研究 如 何 从 文本 数据 中 挖掘 那些 隐藏 看 的 信息 ， 大 多 
数 人 要 么 是 使 用 信息 抽取 的 方法 从 数据 中 抽取 信息 ， 要 么 就 古 使 用 信 
轧 检 索 的 方法 直接 从 文本 中 检索 信息 。 


“文本 数据 挖掘 ”(Text Data Mining， 简 称 TDM) 目的 在 于 从 大 规 
模 真 实 文本 的 数据 中 发 现 或 推出 那些 隐藏 在 文本 中 的 信息 ， 或 者 找 出 
文本 数据 集合 的 模型 ， 或 者 预测 文本 数据 中 所 隐 含 的 趋势 ， 或 者 从 文 
本 数据 的 噪声 中 分 离 出 有 用 的 信号 。 


本 章 首 先 讨 论文 本 数据 挖掘 的 特点 。 然 后 说 明 怎 样 从 文本 中 挖掘 
语言 学 知识 ， 再 说 明 如 何 从 文本 中 挖掘 非 语言 学 知识 ， 并 举 出 实例 具 
体 地 说 明 怎 样 使 用 生物 医学 文献 中 的 文本 数据 来 推测 偏 头 痛 的 病因 ， 
怎样 使 用 专利 文献 中 的 文本 数据 来 揭示 美国 工业 技术 与 政府 的 公共 科 
学 基金 贷 助 之 间 的 关系 ， 最 后 介绍 信息 挖掘 系统 LINDI， 这 个 系统 能 够 
根据 大 规模 的 文本 集合 来 发 现 文本 中 列 含 的 新 信息 。 


第 一 三 ”文本 数据 控 据 的 特 氮 


“文本 数据 挖掘 ”(Text Data Mining) 中 的 “ 挖 据 * (Mining) 这 个 单 
词 是 一 个 比喻 。 所 谓 “ 控 气 *?， 意 味 着 从 没有 价值 的 岩石 中 提取 出 有 价 
值 的 矿物 。 例 如 ， 从 金沙 中 提取 黄金 。 因 此 ， 文 本 数据 挖掘 就 意味 着 
我 们 需要 在 一 大 堆 数 据 的 清单 中 寻找 新 的 信息 ， 自 动 地 或 半自动 地 发 
掘 在 大 量 的 数据 中 隐藏 着 的 趋势 和 模式 ， 这 就 像 从 没有 价值 的 岩石 中 
提取 有 价值 的 矿物 ， 从 金沙 中 提取 黄金 一 样 。 在 很 多 情况 下 ， 文 本 数 
据 挖 气 的 目的 是 制定 对 于 某 个 特定 问题 的 决策 。 


区 分 文本 数据 挖 气 和 信息 抽取 是 非常 重要 的 。 信 息 抽取 的 目的 是 
为 了 帮助 用 户 从 文本 中 找到 能 够 满足 他 们 信息 需求 的 文档 。 信 息 抽取 
的 步骤 类 似 于 在 一 大 扒 针 里 找 我 们 需要 的 针 ， 在 找 我 们 需要 的 针 的 时 
候 ， 我 们 想 要 的 针 和 很 多 其 他 我 们 不 想 要 的 针 是 混在 一 起 ,信息 抽取 
的 任务 就 是 从 一 大 堆 混 杂 的 信息 里 把 我 们 需要 的 信息 抽取 出 来 。 文 本 
数据 挖掘 的 目标 不 是 稍 单 地 抽取 信息 ， 而 是 从 大 量 的 数据 中 发 现 或 者 
获取 新 的 信息 ， 从 一 大 扒 数 据 中 寻找 模式 ， 预 测 发 展 的 趋势 ， 或 者 从 
噪音 中 分 辨 出 有 用 信号 。 信 息 抽 取 系 统 虽 然 能 够 抽取 包含 了 用 户 所 需 
言 思 的 文件 ， 但 这 一 事实 并 不 意味 着 用 户 已 经 有 了 者 的 发 现 ， 这 是 因 
为 ， 信 息 抽 取 系 统 抽 取 到 的 信息 对 于 文本 的 作者 来 说 是 已 知 的 ， 而 文 
本 效 据 控 掘 所 挖掘 出 来 的 信息 ， 往 往 羡 用 户 事 爷 没 有 料 到 的 。 


当然 ， 在 数据 挖 所 中， 如 果 处 理 的 是 非 文本 数据 ， 那 么 ， 不 一 定 
能 够 找 出 黄金 ， 只 要 能 从 上 数据 中 找 出 模式 ， 也 吏 算 很 有 成 绩 了 “。 我 
们 把 这 种 数据 挖掘 叫做 “标准 的 数据 挖 握 ”。 至 于 传统 的 计算 语言 学 ， 
其 目的 主要 是 在 文本 数据 中 找 出 隐藏 在 其 中 的 模式 ， 也 不 一 定 能 够 找 
出 黄金 。 这 种 情况 ， 我 们 在 表 14.1 中 进行 了 比较 。 


表 14.1 中 左边 的 “标准 的 数据 挖 气 "和 “计算 语言 学 ”的 目标 在 于 找 出 
模式 ， 如 琳 处 理 的 是 非 文 本 数据 ， 那 么 ， 这 束 古 “标准 的 数据 挖 据 * 的 


任务 ， 如 采 处 理 的 是 文本 数据 ， 那 么 ， 这 吏 是 传统 的 “计算 语言 学 ”的 
任务 。 表 14.1 中 右边 文本 数据 挖掘 的 目标 在 于 在 沙子 找 出 黄金 ， 这 才 有 是 
真正 意义 上 的 “文本 数据 挖掘 ”， 我 们 把 它 叫 做 “真正 的 文本 数据 挖掘 ”。 
在 这 种 "真正 的 文本 数据 挖掘 "中 ， 需 要 通过 逻辑 推 朵 ， 发 现 新 信和 已， 

从 而 找 出 黄金 。 而 在 “信息 抽取 ”中 ， 只 需要 通过 数据 库 查询 就 可 以 查 
到 有 关 的 信息 ， 由 于 信息 抽取 没有 发 现 新 信息 ， 当 然 不 可 能 找到 黄 
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近年 来 ， 由 于 互联 网 的 迅速 发 展 ， 人 们 开始 研究 “网 络 数据 挖 
掘 ”。 网 络 数据 挖掘 有 两 个 目标 。 第 一 个 目标 是 玫 助 用 户 在 网 页 上 找到 
有 用 的 信息 并 在 网 页 文件 集 摘 述 的 范围 内 ， 挖 据 出 有 用 的 知识 。 第 二 
个 目标 是 分 析 基 于 网 页 系统 下 的 人 机 交互 ， 进 行 系统 优化 。 在 网 络 数 
据 控 气 中 ， 我 们 实际 上 是 把 网 页 中 的 信息 看 成 是 一 个 庞大 的 知识 库 ， 
我 们 的 目的 是 从 中 挖掘 出 新 的 、 前 所 未 有 的 信息 。 


文本 分 类 (text categorization) 是 把 一 个 文件 的 具体 内 容 用 一 个 或 
多 个 预先 设 定 的 分 类 标签 表示 出 来 。 这 样 的 工作 显然 不 会 发 现 新 的 信 
息 ， 因 为 写 文本 的 人 应 当知 道 这 个 文本 的 内 容 ， 只 不 过 文本 分 类 产生 
的 东西 是 对 已 知 信息 的 一 个 紧 读 的 总 结 而 已 。 因 此 ， 我 们 一 般 把 文本 
分 类 归 入 信息 检索 的 领域 ， 我 们 在 “信息 检索 ”中 已 经 介绍 过 这 样 的 文 
本 分 类 技术 。 然 而 ， 最 近 在 文本 分 类 的 方面 的 研究 似乎 真 的 符合 在 更 
加 通用 的 文本 数据 中 发 现 趋 势 和 模式 这 样 的 概念 框架 ， 使 得 这 样 的 文 
本 分 类 也 算得 上 是 “文本 数据 挖掘 ”。 这 种 类 型 的 研究 就 是 使 用 文本 分 
类 标签 来 寻找 隐藏 在 文本 中 的 那些 “ 意 想不到 的 模式 ”， 其 主要 的 方法 
是 在 文本 集 的 子 集中 比较 类 别 标签 的 分 布 情况 。 例 如 ， 比 较 国家 C1 和 
国家 C2 的 商品 分 布 情况 ， 从 数据 中 发 现 一 些 有 趣 或 者 出 平 意 料 的 趋 
势 ， 通 过 这 样 的 比较 也 可 能 发 现 一 些 新 的 信息 。 


BHT ”从 文本 中 控 据 语言 学 知识 


在 自然 语言 处 理 的 框架 内 ， 现 有 词汇 结构 的 自动 扩充 研究 所 取得 
的 成 果 似 乎 印证 了 我 们 将 数据 挖 据 看 作 从 宪 石 中 提取 有 价值 的 矿物 的 
比喻 。 例 如 ， 通 过 识别 词汇 语义 模式 来 自动 地 扩展 词 网 (WordNet) 中 
的 关系 ， 从 大 规模 文本 语 料 中 目 动 获取 再 分 类 的 数据 ， 从 而 进行 再 分 
类 ， 使 分 类 更 加 精密 。 这 些 文 本 数据 挖掘 的 研究 ， 都 从 数据 中 挖掘 出 
了 新 的 信息 ， 而 不 是 单纯 地 抽取 出 数据 中 既 存 的 信息 。 


近年 来 我 在 中 国 传媒 大 学 担任 博士 生 导 师 ， 该 大 学 的 依存 树 库 研 
REAU 《包括 硕士 生 、 博 士 生 和 部 分 青年 教师 ) 在 从 文本 数据 挖掘 语 
言 学 知识 方面 做 了 一 些 初 步 的 探索 。 这 里 ， 我 们 举 出 一 些 例子 来 说 
BH e 


如 果 我 们 有 关于 汉语 副词 “多 半 ” 用 法 的 如 下 例句 : 
1. 游览 北京 名 胜 古 迹 的 多 半 是 外 地 人 。 (表示 “大 部 分 ”) 


2. SRK, RABE 会 变 得 凉爽 起 来 。 (表示 “通常 ”) 


3. 他 们 多 半 会 同意 的 ， 你 不 用 着 急 。 (表示 “很 有 可 能 ”) 


仔细 观察 ， 发 现 句 于 3 有 卜 义 。 除 了 表示 “很 有 可 能 ”之 外 ， 还 可 以 
表示 “他 们 ”中 的 “大 部 分 *。 也 就 是 说 , “多半” 的 语义 指向 可 以 向 后 指 
癌 “ 同 意 ”， 还 可 以 向 前 指向 “他 们 ”。 


我 的 博士 生 高 松 带 着 这 样 的 问题 ， 对 北京 大 学 语料库 提供 的 500 条 
语 料 进 行 分 析 ， 得 出 了 如 下 的 统计 结 


表 14.2 语 料 统 计 结 果 


AK HIC 比 例 

切 分 错误 22 4. 496 
无 歧义 329 65.8% 
有 歧义 149 29. 8% 
& dE 500 100% 


她 还 发 现 ， 如 条文 本 没有 切 词 ， 还 会 产生 如 下 的 切 分 错误 句子 : 


4. 我 差不多 半年 都 没 去 书店 了 。 


其 实 句子 4 中 根本 没有 “多半 ”这 个 单词 。 


在 有 歧义 的 149 条 中 ， 歧 义 格式 可 以 分 为 两 类 : 


Re: “名 词 、 名 词性 短语 + 多 半 + 动 词 ”， 例 如 ， 


5. 考 到 外 地 大 学 生 又 多 半 不 想 回 来 。 
Re: “人称 代词 + 多 半 + 动 词 "， 例 如 ， 
6. 她 们 多半 是 妙龄 女子 。 


进一步 分 析 发 现 ， 出 现 歧义 的 条 件 是 ， 句子 的 主语 必须 是 群体 性 
的 名 词 、 名 词 词组 或 者 人 称 代词 。 


句子 3 之 所 以 有 歧义 ， 融 是 因为 主语 “他 们 ?是 表示 群体 的 人 称 代 
词 。 这 样 束 解 释 了 人 句子 3 出 现 歧义 的 原因 。 


可 见 ， 通 过 对 于 语料库 数据 的 精细 观察 和 深入 思考 ， 我 们 确实 可 
以 从 文本 数据 中 挖掘 出 隐藏 在 其 中 的 有 用 的 语言 学 知识 。 


这 个 团队 的 研究 是 在 树 库 (tree-bank) 的 基础 上 进行 的 。 树 库 在 数 
据 挖 掘 中 起 着 重要 的 作用 。 树 库 是 在 词性 标注 的 基础 上 ， 对 每 个 句子 
加 注 句法 关系 的 语料库 ， 由 于 这 样 的 句法 关系 通常 用 树 形 图 (tree 
graph) 来 表示 ， 因 此 ， 我 们 把 这 样 的 语料库 叫做 树 库 。 近 年 来 ， 树 库 
作为 获得 句法 结构 的 知识 源 和 评价 句法 分 析 结 采 的 工具 ， 受 到 很 多 研 
完 痢 的 重视 。 越 来 越 多 的 研究 发 现 : 树 库 货源 不 仅 可 以 使 用 在 目 然 语 
言 处 理 的 研究 中 ， 也 可 以 使 用 在 理论 语言 学 的 研究 中 ， 它 是 语言 学 研 
完 有 用 的 工具 。 树 库 中 人 台 有 的 大 量 句法 分 布 信息 可 为 句法 赋 究 提 供 坚 
实 的 基础 。 


中 国 传媒 大 学 的 树 库 是 依存 树 库 (dependency tree-bank) 。 依 存 树 
库 是 一 种 用 依存 语法 (dependency grammar) 标注 的 语料库 ， 通 过 建立 
词语 之 间 的 联系 来 摘 述 句法 的 结构 ， 这 种 联系 以 依存 关系 为 基础 。 


依存 天 系 是 两 个 词 之 间 一 种 有 癌 的 、 非 对 称 的 关系 。 它 具有 三 个 
组 成 部 分 ， 支 配 词 (governor) 、 从 属 词 (dependent) 、 依 存 关 系 标记 
(dependency tag) 。 人 句子 中 的 每 个 词 都 有 上 自己 的 文 配 词 ， 即 它 是 受 哪 
个 词 文 配 的 ， 它 依存 于 哪个 词 。 把 这 种 依存 关系 用 符号 标记 出 来 ， 这 
些 符号 就 是 依存 关系 标记 。 图 14-1 为 汉语 句子 “这 是 一 本 书 。” 的 依存 句 
法 结构 图 。 


S 
ob] 
sub] 
J qc atr 
这 是 本 书 
r V m q n bjd 
图 14.1 “这 是 一 本 书 。” 的 依存 句法 结构 图 


图 14.1 中 带 箭头 的 弧 的 起 点 为 支配 词 ， 箭 头 指向 的 是 从 属 词 ， 弧 上 
标记 为 依存 关系 标记 。 动 词 “ 是 ”是 句子 的 谓语 ， 它 支配 主语 < 这 ”和 宾 
语 < 书 "。“ 是 "是 支配 词 ，“ 这 和 "“ 书 "是 从 属 词 ，“s”、“subj”、“obj 是 依 
存 关系 标记 ， 分 别 表示 “句子 *"、“ 主 语 "、“ 宾 语 ”»。 数 词 “一 " 作 量 
词 “本 * 的 量词 补足 语 , “本 * 是 支配 词 ,，“ 一 "是 从 属 词 ，“qc" 是 依存 关系 
标记 ， 表 示 “ 量 词 补足 语 "。 数 量 短语 “一 本 ” 作 名 词 “ 书 ”的 定语 ， 名 
词 “ 书 "支配 量词 < 本 ”，“atr" 是 依存 关系 标记 ， 表 示 "“ 定 语 ”。 


他 们 在 汉语 树 库 中 使 用 的 标记 集 如 下 : 


1. 词性 标记 集 


bs dU 中 文 含义 标记 类 别 
np 专 有 名 词 词类 标记 
nt 时 间 名 词 词类 标记 

处 所 名 词 词类 标记 

方位 名 词 词类 标记 
5 n 其 它 名 词 词类 标记 
6 vu 助动词 词类 标记 
7 vd 趋向 动词 词类 标记 
8 vl 系 动 词 词类 标记 
9 vi 不 及 物 动 词 词类 标记 


小 句 宾 语 


词类 标记 


双 宾 动词 


词类 标记 


兼 语 动词 


词类 标记 


其 它 及 物 动词 


词类 标记 


其 它 动词 


词类 标记 


介词 “把 ” 


词类 标记 


pbei 


介词 “被 ” 


词类 标记 


pjiang 


介词 将 ” 


Ubri 


N 


词类 标记 


词类 标记 


中 文 含义 


(ER) 


标记 类 别 


并 列 连词 


词类 标记 


从 属 连词 


词类 标记 


动 ( 时 ) 态 助词 


词类 标记 


比 况 助词 


词类 标记 


TE IR] 


语气 助词 


词类 标记 


词类 标记 


介词 框架 助词 


词类 标记 


其 他 助词 


词类 标记 


usde 


结构 助词 的” 


词类 标记 


usdi 


结构 助词 “地 ” 


词类 标记 


usdf 


结构 助词 “得 ” 


数 词 


词类 标记 


词类 标记 


量词 


词类 标记 


形容 词 


词类 标记 


副词 


词类 标记 


代词 


词类 标记 


Nal 


词类 标记 


拟 声 词 


词类 标记 


字 “ 第 ” 


语素 标记 


FAT 


语素 标记 


句 中 标点 


标点 标记 


句 末 标点 


2. 依存 关系 标记 和 集 


标点 标记 


间接 宾语 


Ai 
HE AM 


介词 宾语 


方位 结构 补 语 


补 语 


“的 " 字 结 构 补 足 语 


“地 字 结 构 补足 语 


S 字 结 构 补 足 语 


序数 补足 语 
量词 补足 语 
sentobj 小 句 宾语 
obja 能 愿 动词 宾语 

20 adva 状语 

21 va 连 动 名 

22 atr 定语 

23 top 主题 

24 coor 并 列 关 系 


BER) 
中 文 含义 


同位 语 


数 词 结构 


时 态 附 加 语 


句 末 附加 语 


ffi A 


复句 关系 


连带 关系 


助词 附着 关系 


标点 符号 


他 们 使 用 excel 电 子 表格 来 进行 树 库 的 标注 。 表 中 可 以 表示 编号 、 


词 序 、 单 词 、 词 性 、 文 配 词 序 、 文 配 词 、 


文 配 词 性 、 依 和 存 关 系 等 。 例 


如 , “这 是 滕 森 第 二 次 出 姓 受 审 ” 可 以 用 excel 电 子 表格 标注 如 下 : 


IE F 
| 1 | 

| 1 2 是 vl 9 

| 1 3 EH n 7 出 庭 
| 1 ag dio 5= 
| 1 5| 一 m 8 次 

| 1 6 次 q T FE 
| 1 7 出 庭 | 2 是 
| 1 8 受审 ivi | 7 出 庭 
| 1 9j。 bjd 


这 个 excel 工 作 表 相 当 于 如 下 的 依存 树 


ivl (subj 


bjd E 

iv subj 

je joc 

4 atr 

v |adva | 
ivl ;sentobj | 
v va 


bja | 0 
图 14.2 ”用 excel 电 子 表格 来 标注 依存 树 


sentobj 


subj 
subj oc atr adva 
h PDT 
这 ERRE 二 次 出 庭 受审 。 
r vl n zdim q v vi bjd 


图 14.3 ”依存 树 


在 这 个 树 库 的 基础 上 ， 中 国 传媒 大 学 依存 树 库 人 研究 团队 进行 了 从 
文本 数据 中 控 据 语言 学 知识 的 研究 。 


中 文 信息 处理 系统 在 进行 现代 汉语 上 自动 句法 分 析 时 ， 需 要 量化 的 
研究 成 来， i 量化 的 信息 也 
有 助 于 语言 的 本 体 人 研究 与 对 外 汉语 教学 。 


名 词 是 现代 汉语 词类 中 的 重要 成 员 ， 是 三 大 类 实 词 之 一 。 语 言 学 
家 们 有 从 定 竹 的 第 度 对 名 词语 法 功能 渤 行 了 研究 得 出 了 一 些 有 共识 的 


结论 


高 松 通过 对 于 依存 树 库 的 定量 分 析 ， 统 计 出 汉语 名 词 的 各 种 语法 
功能 的 概率 ， 可 以 验证 和 补充 前 人 的 研究 结论 ， 有 助 于 对 名 词语 法 功 

能 的 认识 更 清晰 。 在 对 外 汉语 教学 中 ， 可 以 根据 名 词 各 语法 功能 出 现 
频率 的 高 低 区 分 出 典型 、 非 典型 功能 来 分 阶段 教学 ， 她 的 研究 是 有 实 
用 价值 的 。 


2007 年 ， 刘 海 涛 、 汉 志 伟 提出 了 “概率 配 价 模式 理 
论 ” (Probabilistic Valence Pattern Theory, fai/PKPVP) H -o ZEW £ E 
了 传统 配 价 理论 (Valence Theory) ,吸收 了 配 价 理论 的 优点 ， 将 配 价 
理论 和 依存 语法 很 好 地 结合 起 来 ， 形 成 了 一 种 较 完 整 的 自然 语言 分 析 
和 理解 理论 。 


他 们 提出 该 理论 时 ， 在 给 出 的 汉语 词类 概率 配 价 模式 图 中 ， 他 们 
凭借 着 语感 ， 用 粗细 不 同 的 线条 来 表示 词类 结合 力 的 大 小 。 线 条 粒 
的 ， 词 类 的 结合 力 大 ; 线条 细 的 ， 词 类 的 结合 力 小 。 高 松 从 真实 语 料 
出 发 ， 构 建 汉语 依存 树 库 ， 从 树 库 中 提取 汉语 词类 的 配 价 模式 ， 用 精 
硝 的 数据 来 表示 词类 绪 合 力 的 大 小 ， 改 变 了 原来 皂 借 语感 用 线条 的 粗 
细 表 示 结 合力 的 大 小 的 方法 ， 这 是 对 概率 配 价 模式 理论 的 进一步 发 
展 。 


高 松 利用 汉语 依存 树 库 ， 统 计 出 动词 作为 支配 词 时 ， 它 支配 从 属 
词 所 形成 的 支配 关系 和 和 这 种 支配 关系 出 现 的 概率 ， 以 及 动词 作为 从 
属 词 时 ， 文 配 词 文 配 动 词 所 形成 的 动词 从 属 关 系 和 这 种 从 属 天 系 出 现 
的 概率 ;由 此 总 结 出 汉语 动词 所 具有 的 句法 功能 的 概率 ， 高 松 将 统计 
结 采 与 前 人 的 研究 结 采 进行 对 比 ， 验 证 和 补充 以 前 的 研究 结论 ;并 按 
照 汉 语 动词 各 语法 功能 出 现 概率 的 高 低 ， 区 分 出 动词 的 典型 功能 和 非 
典型 功能 ， 为 对 外 汉语 教学 提供 参考 。 


1959 年 ， 法 国语 言 学 家 泰 尼 埃 的 《结构 句法 基础 》 一 书 出 版 % 此 
后 ， 他 所 提出 的 配 价 理论 与 依存 语法 引起 了 世界 各 国语 言 学 界 的 广泛 
重视 。 在 语法 研究 、 语 言 教学 、 目 然 语言 处 理 中 ， 配 价 理论 都 得 到 了 
广泛 的 应 用 。 这 体现 出 配 价 理论 征 一 种 面 问 实用 的 语言 学 理论 。 


刘海 涛 、 冯 志 伟 的 概率 配 价 模式 理论 (PVP) 认为 : 配 价 是 对 词汇 
的 一 种 静态 描述 ， 它 是 词 与 其 他 词 结合 的 潜在 能 力 。 在 词典 中 ， 词 的 
配 价 有 多 种 可 能 。 但 当 词 进入 到 具体 的 语 境 中 ， 它 与 其 他 词 结合 的 潜 
在 能 力 得 以 实现 ， 词 典 中 多 种 可 能 的 配 价 变 为 一 种 ， 形 成 了 依存 关系 
(dependency) ， 依 存 关 系 是 一 种 实现 了 的 配 价 。 配 价 是 一 个 词 的 结合 
力 ， 力 有 大 小 ,我 们 可 以 用 一 个 词类 文 配 或 被 文 配 的 依存 关系 在 数量 
上 的 不 同 来 描述 结合 力 的 大 小 ， 可 以 通过 依存 树 库 来 获得 精确 的 定量 
描述 。 这 束 是 概率 配 价 模式 理论 。 它 就 是 在 描述 一 个 词 或 词类 的 配 价 
模式 时 ， 不 仅 用 定性 的 方式 来 措 述 它 可 文 配 什么 样 的 依存 关系 ， 可 受 
什么 样 的 依存 关系 的 文 配 ， 还 用 定量 的 方式 给 出 这 些 依存 关系 的 权重 
或 概率 分 布 。 


高 松 的 研究 是 以 概率 配 价 模式 理论 为 理论 基础 的 。 


高 松 研究 使 用 的 树 库 是 中 国 传媒 大 学 依存 树 库 研 究 团 队 开发 的 面 
向 有 声 媒 体 语 言 的 汉语 依存 树 库 以 及 她 自 建 的 汉语 依存 树 库 。 选 取 的 
语 料 为 2007 年 电视 台 和 广播 电台 市 目的 转 写 文本 。 电 视 节目 如 “新 闻 联 
播 "、“ 实 话 实说 ”\“ 鲁 了 驳 有 约 ”\“ 百 家 讲坛 ?等 ; 广播 节目 如 “新 闻 和 报 
纸 摘要 ”*”、“ 今 日 论坛 >、“ 海 峡 时 评 *、“ 中 国之 窗 ” 等 。 选 取 的 语 料 既 包 
含 新 闻 播 报 类 又 包含 访谈 会 话 类 ， 涉 及 的 范围 和 内 容 比 较 广 泛 。 语 体 
上 ， 既 有 书面 语 体 又 有 口语 体 。 语 料 中 共有 3 600 个 句子 ，98 236 个 词 
次 ， 使 用 软件 工具 进行 了 自动 分 词 和 词性 标注 ， 并 采用 依存 语法 对 其 
进行 了 句法 标注 。 为 确保 标注 的 一 致 性 ， 对 汉语 的 某 些 特殊 结构 ， 给 
出 了 统一 的 标注 方法 。 所 有 的 标注 结果 都 经 过 了 人 工 和 工具 的 核对 校 
IE œ 


在 依存 树 库 中 ， 高 松 用 excel] 电 子 表 格 统计 出 “从 属 词 词性 ”`“ 文 配 
词 词 性 ”与 “依存 类 型 > 之 间 的 关系 ， 得 到 汉语 动词 通过 哪些 依存 关系 文 


配 从 属 词 ， 文 配 词 通过 哪些 依存 关系 文 配 动词 。 动 词 文 配 从 属 词 形成 
的 依存 关系 ， 能 得 出 动词 可 以 市 什么 成 分 的 信息 ， 受 什么 词 修 饥 ; 3 
配 词 文 配 动词 形成 的 依存 关系 ， 能 得 出 动词 在 名 中 作 什 么 成 分 的 信 
轧 。 分 析 这 两 种 依存 关系 能 得 出 汉语 动词 具有 的 句法 功能 分 布 的 信 
轧 ， 而 这 样 的 信息 ， 原 来 都 是 隐藏 在 文本 中 的 ， 所 以 ， 这 是 一 种 "文本 
数据 控 握 ”的 研究 。 


动词 是 现代 汉语 词类 中 的 重要 成 员 ， 在 句法 结构 中 起 着 极 重要 的 
作用 ， 动 词 的 研究 一 直 是 语言 学 全 究 的 热点 。 在 语言 学 本 体 人 斌 究 中 ， 
对 动词 句法 功能 的 研究 相当 深入 ， 但 这 些 研 究 大 多 是 对 动词 的 定性 分 
析 。 高 松 将 定量 分 析 和 定性 分 析 相 结合 ， 能 验证 已 有 研究 结论 的 正确 
TEJESIME NEL TBUAR AE $ 


在 依存 树 库 中 ， 动 词 为 文 配 词 时 ， 它 与 从 属 词 所 形成 的 文 配 天 
系 ， 包 括 文 配 关 系 标记 、 这 种 文 配 关 系 出 现 的 次 数 以 及 每 种 支配 关系 
占 动 词 作 支 配 词 所 形成 的 所 有 支配 关系 的 比例 。 见 表 14.3。 


表 14.3 ”动词 为 文 配 词 文 配 从 属 词 所 形成 的 依存 关系 、 依 存 关系 出 现 的 频次 、 比 例 和 例 名 


我 们 如 何 才能 打破 世俗 观念 , 活 出 
状语 adv: 23. 48% 人 一 
站 人 生 最 佳 状态 。 


用 庄子 的 比喻 来 讲 , 好 像 是 一 匹 


ES. 


宾语 obj 17. 9096 


RIE Je BA AI HO ASIE b 
态 决定 人 的 状态 。 
不 务 就 是 不 去 追求 ,也 就 是 不 去 所 
求 不 以 为 是 的 东西 。 


主语 subj 16. 1196 


复句 关系 cr 5555 | 11.57% 


支配 关系 


名 


标点 符号 punct 


我 听 朋 友 讲 , 董 月 玲 出 书 了 。 


补 语 comp 


这 些 熟 悉 的 字眼 第 一 次 集体 地 出 
现在 眼前 。 


连带 关系 csr 


于 是 我 找到 了 他 ,请 他 讲述 那些 令 
他 感动 的 故事 。 


小 句 宾语 sentobj 


我 们 总 觉得 下 个 世纪 离 我 们 很 远 ， 
突然 一 下 子 来 临 。 


那个 时 间 也 能 出 书 。 
那 时 我 大 概 写 了 五 十 万 字 。 


甘肃 张 县 是 当年 红军 长 征 走 过 的 
地 方 。 


定语 atr 


仅仅 把 新 闻 的 传递 当成 他 的 天 职 。 


句 末 附加 语 esa 


我 认为 没 价值 我 还 追求 吗 ? 


AENEAM soc 


请 列 御 寇 上 来 ,在 这 里 射箭 。 


Fis subobj 


经 常会 有 山里 的 一 种 猴子 跑 到 农 
田 里 去 祸害 庄稼 。 


并 列 关系 coor 


这 个 口碑 传 着 传 着 就 传 到 国君 那 
里 了 。 


资源 紧张 的 国情 ,我们 更 无 理由 奢 


E to 259 0.53% 
B BHEE. 
比如 说 ,我 们 有 天 然 气 化 工 ,但 我 
五 ina lo P = 
ados Be) OE | see NET. 
signage ame | 197 | oag | 人 去 楼 空 依旧 灯火 通明 ,电脑 不 


关 , 空 调 照 转 等 。 


比 例 fi] 名 


paga | 如 果 是 湾 沁 和 小 石头 ,我 们 把 它 简 


baobj 了 以 后 就 快 。 


陕西 省 目前 要 求 被 拆除 的 钢铁 设 
被 字句 beis 0.29% ms 一 
T 备 必 须 解体 。 


100% 


从 表 14.3 中 ， 可 以 得 到 的 结论 主要 有 : 


1) 动词 支配 补足 语 可 以 形成 的 依存 关系 有 : 宾语 obj、 主 语 subj、 
补 语 comp、 人 小 句 宾 语 sentobj、 能 愿 动词 宾语 obja 等 。 其 中 ， 动 词 能 市 
语 的 比例 在 动词 带 所 有 补足 语 的 比例 中 是 最 高 的 ， 占 17.90%。 其 次 
市 主语 。 动 词 市 主语 的 比例 仅 次 于 市 宾语 的 比例 ，16.119%。 然 后 是 市 
补 语 。 动 词 带 补 语 的 比例 是 3.71%。 接 下 来 是 小 句 宾语 sentobj、 能 愿 动 
词 宾语 obja、 兼 语 补 语 soc、 兼 语 subobj、“ 把 ”* 字 宾语 baobj、“ 被 * 字 句 


beis ° 


mz B 


$ 


2) 动词 支配 说 明 语 可 以 形成 的 依存 关系 有 : 状语 adva、 复 句 谓语 
cT、 连 市 天 系 csr、 时 态 附 加 语 ta 等 。 其 中 ， 动 词 能 市 状语 的 比例 在 动词 
带 所 有 说 明 语 的 比例 中 是 最 高 的 ， 占 23.48%。 其 次 是 带 复句 谓语 cr， 
11.579%6。 然 后 是 融 连 带 关 系 csr， 占 3.30%。 接 下 来 是 这 时 态 附 加 语 ta、 
形成 连 动 天 系 va、 市 定语 atr、 市 句 末 附加 语 esa、 形 成 并 列 天 系 coor、 
带 主题 top、 融 插入 语 ina、 带 助词 附加 语 auxr 。 


3) 语言 学 家 们 提出 动词 能 带 宾 语 、 能 带 补 语 、 能 市 状语 、 后 面 还 
能 加 时 态 助词 着 ”`“ 了 ”`“ 过 ”。 高 松 统 计 出 来 的 动词 市 宾语 (如 “有 
理想 ”) 、 带 补 语 (如 “ 想 明 白 ”) 、 带 状语 如 “不 追求 ") 、 带 时 态 助 


词 “ 着 ” x Nia 十 sexy pon (U DE” y RE” S “去 过 ”) 等 结果 ， 验证 了 
这 些 结论 的 正确 性 。 


4) 从 统计 数据 来 看 ， 动 词 支配 说 明 语 的 比例 是 53.82%， 支 配 补足 
语 的 比例 生 46.18%“。 研 究 着 们 基于 传统 的 配 价 理论 ， 通 利 考 虑 动词 市 
促 足 语 的 情况 很 多 ， 对 带 说 明 语 的 关注 程度 不 高 。 高 松 的 统计 数据 显 
示 : 动词 文 配 说 明 语 的 比例 略 高 于 补足 语 。 这 提示 我 们 ， 今 后 应 该 加 
大 对 动词 文 配 说 明 语 的 考察 力度 。 


动词 作 从 属 词 时 ， 文 配 词 文 配 动 词 所 形成 的 动词 从 属 关 系 ， 包 括 
从 属 天 系 标记 、 从 属 关 系 出 现 的 次 数 以 及 每 种 从 属 天 系 占 动词 作 从 属 
词 所 形成 的 所 有 从 属 天 系 的 比例 。 见 表 14.4。 


X144 ”动词 为 从 属 词 ， 支配 词 支 配 动 词 所 形成 的 依存 关系 、 依 存 关 系 出 现 的 频次 、 比 例 和 例 
名 


M J RA 频次 


复句 关系 rO 


世界 最 佳 运动 员 评选 结果 昨天 揭 
晓 , 巴 西 球星 卡 卡 当选 世界 足球 
先生 。 


谓语 。 


15.83% 


他 的 同胞 玛 塔 则 卫 园 了 世界 足球 
小 姐 称号 。 


"RJ" SEHR E 


工资 收入 成 为 今年 农民 增收 的 新 


议 制 定 科 索 沃 问题 线路 图 。 


引 家 基本 上 不 发 展 炼焦 而 


深化 政治 体制 改革 ,必须 坚持 正确 
的 政治 方向 ,以 保证 人 民 当 家 作 主 
为 根本 。 


美国 一 年 购买 瓶装 水 花费 150 亿 
美元 。 


从 属 关 系 频次 | 比 例 例 名 
加 快 “白杨 一 M” 固定 式 和 机 动 式 
定语 : 1084 | 5.07% 
i 发 射 装置 的 装备 进程 。 
补 语 comp 1031 | 4.82% | 救出 来 的 矿工 他 的 生命 有 危险 吗 ? 
| 提供 保障 吸引 外 出 务工 人 员 回 乡 
状语 adva 908 4.25% 创业 就 业 。 

化 ZRH MIA Ha 

主语 subj 619 2. 90% 2007 中 华 十 大 才智 人 物 评选 日 前 
int. 
3 = zi “Se 会 
兼 语 补 语 soc 471 2.20% AWA FP RA 复方 丹参 
滴 丸 o 
随 着 经 济 的 发 展 ,如 今 出 现 劳动 力 
介词 宾语 pobj 55% | —— <= 
介词 宾语 pobj 332 1.55% ENS 
pem - 
并 列 关 系 coor 291 | 1.36% TAREE ae E SE 
少 钱 
IESEAN E 
方位 结构 补 语 fe 9 | 1.21% PEREAT. BBDETAEGR 
着 的 。 
— — 102 | 0.48% | 先 来 看 一 下 我 们 议事 厅 的 记者 
调查 。 
jM EL H FR r Ex 占 2 iH MA 
插入 语 ina 100 | 0.47% | 据说 最 好 的 时 间 是 六 点 到 六 点 半 
之 间 。 

,围绕 经 济 建设 这 个 中 心 ， 
同位 语 epa 98 | 0.46% 2m ERR Pa 
* fH » aE A y 
du TAM aa | 0.21% | 他们 活 得 比 我 们 充实 。 

i& dfe I 
“地 “ 字 结 构 补 足 ae ft. zE AP LER HU E oc e — RE 


i& dic 


从 属 关 系 频次 | k 例 fi] 名 


展望 未 来 , 他们 对 生活 充满 了 


aa y 
Fio 


话题 top 20 0.09% 


100% 


@cr 为 一 个 复句 中 分 句 间 的 关系 。 联 合 复句 中 ， 第 一 个 分 句 中 的 谓 
语 定 为 cr 的 文 配 者 ， 后 续 分 句 的 谓语 为 从 属 成 分 ， 偶 正 复句 中 ， 正 句 中 
的 谓语 作为 cr 的 文 配 痢 ， 偶 名 谓语 作为 从 属 成 分 。 复 句 中 动词 在 分 名 中 
作 谓 语 用 cr 表示 ; 香 句 中 动词 作 请 语 用 s 表 示 。s 和 cr 出 现 次 数 的 总 和 十 
动词 作 谓语 出 现 的 全 部 次 数 。 


从 表 14.4 中 ， 可 以 得 到 的 结论 主要 有 : 


1) 汉语 中 6 种 主要 的 句法 功能 ， 即 主语 subj、 谓 语 s、 宾 语 obj、 定 
语 atr、 状 语 adva、 补 语 comp， 动 词 都 可 以 充当 。 动 词 充 当 这 6 种 主要 的 
语法 功能 的 比例 不 同 。 动 词 作 谓语 的 比例 最 高 ， 占 42.02%， 其 次 是 作 
宾语 ， 占 7.419%。 人 然后 依次 是 作 定 语 、 补 语 、 状 语 、 主 语 。 


2) 除了 主要 的 句法 功能 之 外 ， 动 词 还 可 以 作 “ 的 * 字 结构 补足 语 
dec、 作 能 愿 动词 宾语 obja、 作 小 句 宾语 sentobj、 融 连 动 成 分 va、 作 兼 
语 补 语 soc、 作 介词 宾语 pobj、 形 成 并 列 关 系 coor、 作 方位 结构 补 语 fc、 
作 助 词 附 加 语 auxr、 作 插入 语 ina、 作 同位 语 eapa、 作 “得 ?” 字 结构 补足 语 
dfc、 作 “地 *”* 字 结构 补足 语 dic、 作 主题 top。 


3) 从 动词 具有 6 种 主要 的 句法 功能 来 看 ， 动 词 似乎 成 了 一 个 全 功 
能 的 词类 。 汉 语 是 不 依赖 于 严格 意义 上 形态 变化 的 语言 ， 语 法 关系 主 
要 借助 语序 、 虚 词 等 语法 手段 来 表示 。 词 的 次 序 和 位 置 改变 ， 语 法 关 
系 也 随 之 发 生 改 变 ， 语 义 也 跟着 产生 变化 。 如 : “他 工作 很 努力 。 一 一 


工作 是 他 的 全 部 。” 前 一 句 中 的 “工作 ”是 动词 ， 位 置 在 主语 后 ， 作 谓 
语 ， 后 一 句 中 的 “工作 ”是 名 词 ， 位 置 在 动词 前 ， 作 主语 。 同 样 是 “ 工 
作 ” 这 个 词 ， 在 句 中 位 置 变化 使 得 语法 天 系 也 发 生 了 变化 。 瑞 语 
中 ,，“ 工 作 *” 作 主语 是 working， 作 谓语 是 works、worked。 ZEB An 
充当 的 句法 成 分 不 同 ， 词 的 形态 是 会 发 生变 化 的 。 这 里 实际 上 反映 出 
汉语 词 的 兼 类 问题 没 处 理 好 。 同 一 个 词 兼 具 几 种 词类 ， 束 会 导致 己 具 
有 多 种 句法 功能 。 


高 松 选择 了 五 本 比较 权威 的 语言 学 著作 : RAR > BEAR OR SE Se 
《现代 汉语 (第 三 版 ) 》、 北 京 大 学 中 文系 现代 汉语 教研 室 编 《现代 
汉语 (EHA) 》、 胡 裕 树 主编 《现代 汉语 》、 张 斌 主编 《新 编 现 代 
汉语 (第 二 版 》、 邵 敬 敏 主编 《现代 汉语 通论 》， 从 定性 分 析 的 角 
度 ， 语 言 学 家 们 用 内 省 的 方法 对 动词 句法 功能 的 归纳 如 下 。 见 表 14.5。 


表 14.5 五 本 语言 学 著作 对 动词 句法 功能 的 总 结 


句法 功能 | 能 受 副 i 后 面 可 加 
时 态 助 词 
着 .了 ,过 


明 裕 树 本 
张 斌 本 
FB AAAS 


表 中 “+* 表 示 该 著作 中 提 到 了 的 动词 句法 功能 项 ，“-* 表 示 没有 提 到 
的 动词 句法 功能 项 。 


从 表 14.5 中 可 以 看 到 : 五 本 有 代表 性 的 语言 学 著作 中 ， 对 动词 的 语 
法 特点 共 提 到 七 点 。 多 数 都 提 到 了 动词 能 受 副词 修饰 、 大 部 分 能 市 宾 
语 、 作 定语 、 可 加 时 态 助 词 、 部 分 可 以 重合 、 能 市 补 语 这 几 点 。 少 数 
提 到 了 动词 作 宾语 这 点 。 高松 的 统计 数据 验证 了 这 些 研究 结论 的 正确 
性 。 对 于 动词 能 作 定语 、 状 语 、 补 语 、 主 语 这 些 句法 功能 ， 这 五 本 书 
都 没有 提 及 。 高 松 的 统计 结果 可 以 补充 前 人 的 研究 结论 。 并 且 ， 为 动 
词 各 个 句法 功 提 供 了 相应 的 数据 。 


本 文 的 统计 可 以 为 汉语 动词 的 结合 力 提供 精确 的 数据 ， 用 数据 来 
表示 动词 结合 力 的 大 小 。 汉 语 动词 的 概率 配 价 模式 图 如 下 : 


由 图 14.4 可 以 看 出 ， 汉 语 动词 的 结合 能 力 古 非常 强 的 。 它 的 文 配 能 
力 和 从 属 能 力 痢 非 第 强 。 它 可 以 文 配 或 从 属 其 他 词类 而 产生 多 种 依存 
关系 。 当 它 是 文 配 词 时 ， 结 合力 是 离心 力 ， 图 中 用 同 外 的 箭头 表示 动 
词 可 以 文 配 的 关系 ， 如 :“ 重 局 电脑 ”中 动词 “ 重 局 ?是 文 配 词 ， 文 配 名 
WBR”, “电脑 * 作 “ 重 局 ”的 宾语 ， 当 它 古 从 属 词 时 ， 结 合力 是 同心 
力 ， 儿 中 用 回 内 的 箭头 才 示 动词 可 以 满足 的 关系 ， 如 : “报警 电话 ?中 
动词 “报警 ”是 从 属 词 ， 它 从 属于 名 词 “ 电 话 ”， 作 名 词 “ 电 话 ” 的 定语 。 图 
中 依存 关系 后 的 数字 是 动词 可 文 配 、 可 满足 关系 的 比例 (%) 
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图 14.4 ”汉语 动词 的 概率 配 价 模式 图 


从 概率 配 价 模式 图 中 可 以 看 到 : 动词 典型 的 句法 功能 是 作 谓语 ， 
较 典 型 句法 功能 次 之 的 是 作 宾语 和 定语 ， 非 典型 句法 功能 是 作 补 语 、 
状语 和 主语 。 这 说 明 ， 汉 语 的 动词 具有 多 功能 性 ， 除 了 充当 目 己 擅长 
的 句法 成 分 之 外 ， 还 可 以 充当 其 他 几 种 句法 成 分 。 可 以 说 ， 它 是 “一 专 
多 能 ”的 。 在 对 外 汉语 语法 教学 中 ， 可 以 对 动词 典型 句法 功能 和 非典 型 
句法 功能 分 阶段 教学 。 高 松 根据 统计 数据 对 动词 句法 功能 的 区 分 ， 可 
以 为 对 外 汉语 教学 提供 一 个 参考 。 


这 些 人 研究 成 果 显 示 了 语料库 的 威力 ， 证 明了 我 们 确实 可 以 从 语 料 
库 中 挖 据 到 有 用 的 语言 学 知识 。 


语言 学 知识 完 竟 在 哪里 ? 我 们 的 回答 是 : 语言 学 知识 固然 在 词典 
里 ， 在 语法 书 里 ， 在 汗 牛 充 栋 的 语言 学 著作 里 ， 但 是 ， 这 些 语言 学 知 
识 毕竟 是 通过 语言 学 家 对 于 局 部 的 语言 现象 归纳 出 来 的 ， 难 免 会 有 片 
面 或 错误 的 地 方 ， 更 多 的 语言 学 知识 还 隐藏 在 语料库 里 ， 语 料 库 是 语 
言 学 知识 最 可 车 的 来 产 。 从 语料库 中 获取 语言 学 知识 ， 并 根据 这 些 知 
识 对 于 前 奋 语 言 学 家 根据 内 省 得 出 的 结论 进行 检验 ， 从 而 证 实 或 证 伪 
这 些 知 识 ， 这 是 生活 在 21 世 纪 的 语言 学 家 责 无 学 贷 的 任务 。 


除了 使 用 语料库 挖掘 语言 学 知识 之 外 ， 还 可 以 使 用 语料库 挖掘 非 


语言 学 的 知识 。 


Bo ”从 文本 中 控 据 非 语 言 学 知 


iR 


前 面 我 们 说 过 ， 文 本 数据 挖掘 目的 在 于 从 大 规模 真实 文本 数据 中 
发 现 或 推出 新 的 信息 ， 找 出 文本 数据 集合 的 模型 ， 发 现 文本 数据 中 所 


隐 伟 的 趋势 ， 从 文本 数据 的 噪声 中 分 离 出 有 用 的 信号。 在 本 市 中 ， 我 
们 来 说 明 如 何 从 文本 中 挖掘 出 非 语言 学 知识 。 


1997 年 ， 斯 万 森 (Don Swanson) 证 明了 医学 文献 的 语料库 中 暗合 
的 因果 链 可 以 帮助 我 们 找到 有 关 罕 见 疾 病 起 因 的 假说 ， 而 其 中 一 些 假 
说 有 可 能 得 到 实验 数据 的 进一步 支持 。 


例如 ， 当 调查 偏 头 痛 (migraine headaches) 的 起 因 时 ， 斯 万 森 从 
生物 医学 文献 的 文章 标题 中 提取 了 各 种 各 样 的 线索 ， 其 中 的 一 些 线索 
如 下 : 


因果 链 1: 


Stress is associated with migraines.( 偏 头痛 与 精神 紧张 有 关 。 ) 
Stress can lead to loss of magnesium. 《精神 紧 张 可 能 会 导致 镁 流 
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[5] - 852: 


Calcium channel blockers prevent some migraines. (£538 E DH Yi] nT 
ABEREAK o ) 

Magnesium is a natural calcium channel blocker. 〈 镁 是 一 种 天 然 的 钙 
通道 阻 滞 剂 。 ) 


因果 链 3: 


Spreading cortical depression is implicated in some migraines. (传播 
皮层 抑郁 与 某 些 偏 头痛 有 联系 。 ) 
High levels of magnesium inhibit spreading cortical depression. (jai 


量 的 镁 可 阻止 传播 皮层 抑郁 。 ) 


因果 链 4: 


Migraine patients have high platelet aggregability.( 偏 头痛 患者 有 很 
高 的 血小板 聚集 。 ) 
Magnesium can suppress platelet aggregability. 〈 镁 能 抑制 血小板 聚 
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IRIA EEG Fe n] DBE, PRE AY BE ee EE A RAZ; 但 
we, FEMA BRAC IK EER ZB, TX 7 BOE TEOCHA 2T AS BR 
在 ， 它 是 隐 含 在 文献 中 的 。 这 个 假说 还 需要 进行 非 文 本 手段 的 检验 ， 
不 过 ， 重 要 的 是 ， 这 项 研究 说 明 ， 一 个 新 的 、 可 能 是 正确 的 医学 假说 
可 以 来 源 于 文本 片段 ， 一 旦 这 个 假设 得 到 研究 者 的 医疗 专业 知识 的 印 
证 ， 就 可 以 发 现 新 的 医学 知识 。 斯 万 森 的 研究 生动 地 说 明了 文本 数据 
挖掘 在 新 知识 发 现 中 的 重要 作用 。 


我 们 再 介绍 通过 文本 数据 挖掘 来 确定 政府 资助 研究 对 工业 发 展 影 
响 的 一 个 成 果 。 
经 过 几 年 的 初步 研究 和 构建 特殊 用 途 的 工具 ，1997 年 ， 纳 宁 


(Narin) 等 人 发 现 ， 在 美国 ， 技 术 产 业 比 以 往 任何 时 候 都 要 更 加 依赖 
政府 俊 助 的 研究 成 果 。 


他 们 通过 文本 数据 挖掘 探索 了 下 列 文献 之 间 的 关系 : 


他 们 仔细 考察 了 最 近 两 个 阶段 (1987 到 1988 年 ， 以 及 1993 年 到 
1994 年 ) 美国 专利 的 科学 引用 文献 ， 人 研究 了 所 有 已 经 发 布 的 397 600 项 
专利 。 结 采 发 现 可 识别 242 000 条 科学 引用 文献 ， 而 这 些 文献 中 的 80% 
都 集中 出 现在 前 11 年 的 出 版 物 上 。 计 算 机 数据 库 查 寻 了 这 些 引 用 文献 
中 的 109 000 条 ， 从 而 知道 了 这 些 期 刊 和 作者 的 地 址 。 在 排除 了 对 同一 


篇 论文 的 多 次 引用 和 未 知 美国 作者 的 文章 之 后 ， 得 到 了 由 45 000 篇 论文 
组 成 的 一 个 核心 集 。 然 后 ， 他 们 派出 了 大 量 的 助手 去 图 书馆 查找 论文 
并 审查 这 些 论文 的 最 后 一 句 话 ， 因 为 最 后 一 句 话 常常 会 说 明 是 谁 资助 
了 这 项 研究 ， 这 样 就 可 以 找 出 有 关 研 究 的 资助 者 。 这 些 调 查 工 作 说 
明 ， 这 些 专利 科学 引用 文献 的 研究 成 果 对 于 政府 的 公共 资助 科学 基金 
的 广泛 依赖 ， 然 后 ， 他 们 进一步 缩小 考察 的 重点 ， 不 考虑 颁 给 学 校 和 
政府 的 专利 ， 而 主要 集中 考虑 工业 专利 。 对 于 在 1993 年 和 1994 年 中 发 
布 的 2 841 项 工业 专利 ， 他 们 仔细 考察 了 文献 引用 的 高 峰 年 (1988 
©) ， 并 且 发 现 ， 这 些 工 业 专 利 引 用 了 5 217 条 科学 论文 ，73.39% 的 专利 
论文 的 发 表 者 是 美国 国内 外 的 公共 机 构 ， 也 就 是 大 学 、 政 府 实验 室 和 
其 他 的 公共 机 构 。 这 项 研究 说 明 : 美国 的 工业 技术 的 专利 成 果 主 要 由 
政府 的 公共 资助 科学 基金 资助 的 。 这 项 研究 结果 使 我 们 对 于 美国 工业 
技术 与 政府 的 公共 资助 科学 基金 资助 的 关系 有 了 新 的 认识 ， 获 得 了 新 
的 信息 。 


在 文本 数据 挖 气 中， 对 大 型 文本 集 进行 复杂 的 分 析 需 要 一 套 混 合 
的 操作 。 这 些 操 作 包 括 : 


1. 在 一 个 特定 的 数据 范围 内 ， 从 特定 的 集合 (模式 ) 中 提取 文 
TK 


2. 识别 引用 文献 集 。 
3. 用 数据 将 这 些 引 用 的 文献 进行 分 类 ， 创 造 出 一 个 新 的 文献 子 
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4. 计算 归 类 后 剩余 文献 的 百分比 。 
5. 把 这 些 结果 加 入 到 那些 已 经 识别 出 出 版 物 的 文献 集 里 。 


6. 删除 重复 的 文献 。 
7. 删除 具有 同一 属性 类 别 的 文献 。 


8. 找 出 文献 在 全 文中 的 位 置 。 


9. 从 全 文中 提取 特定 的 属性 〈 例 如 ， 资 金 赞 助 情 况 ) 。 

10. 对 这 个 属性 进行 分 类 (例如 ， 按 照 机 构 类 型 分 类 ) 。 

11. 通过 一 个 属性 〈 例 如 ， 机 构 类 型 ) 缩小 需要 考虑 的 文献 集合 。 
12. 对 于 其 中 的 一 个 属性 ， 计 算 统 计数 据 〈 例 如， 峰值 类 型 ) 。 


13. 针对 哪 一 属性 会 被 分 配 为 另 一 个 属性 类 型 的 情况 ， 计 算 文章 的 
百分比 〈 例 如 ， 其 引用 属性 是 否 具有 特定 的 机 构 属 性 ) 。 


因为 有 的 数据 不 能 通过 网 络 获得 ， 许 多 工作 必须 由 手工 完成 ， 而 
且 需 要 用 专用 工具 来 进行 操作 。 


在 分 子 生物 学 中 ， 目 动 发 现 新 的 序列 基因 的 功能 是 一 个 非常 重要 
问题 。 人 类 基因 组 的 研究 人 员 进 行 了 实验 ， 他 们 在 实验 中 同时 分 析 了 
数 以 万 计 的 新 信息 和 已 知 基因 的 协同 表达 关系 。 给 出 大 量 基因 信息 的 
目的 是 为 了 确定 哪些 新 基因 在 医学 上 是 有 意义 的 ， 它 们 与 已 知 的 和 疾 
病 相关 的 基因 是 否 具 有 协同 表达 的 关系。 


我 们 可 以 使 用 文本 数据 挖掘 的 方法 来 探索 这 个 问题 ， 通 过 分 析 分 
子 生物 学 和 医学 的 文献 ， 设 法 提出 与 基因 有 天 的 、 可 信 的 假说 。 为 
此 ， 学 者 们 设计 了 LINDI (Linking Information for Novel Discovery and 
Insight) 系统 ， 该 系统 可 以 把 新 的 科学 发 现 信 息 与 科学 预见 的 信息 结合 
起 来 。 


LINDI 系 统 的 界面 为 用 户 提供 了 便利 ， 它 可 以 让 用 户 通过 一 个 拖 放 
界面 来 建立 和 重复 使 用 问题 操作 的 序列 ， 人 允许 用 户 针对 不 同 的 问题 重 
复 同一 动作 序列 。 在 基因 的 分 析 中 ， 人 允许 用 户 指定 一 个 操作 序列 以 适 
用 于 协同 表达 的 基因 ， 然 后 在 可 以 套用 这 一 模版 的 其 他 协同 表达 基因 
列表 中 重复 这 一 序列 。 在 LINDI 的 信息 中 心 框架 内 应 用 了 这 类 功能 。 包 
括 下 列 操作 : 


1. 在 规定 范围 内 的 ， 对 条 目的 循环 操作 ， 人 允许 在 先前 问题 当中 所 
取出 来 的 每 个 条 目 都 能 够 被 用 作 男 一 个 新 问题 的 搜寻 条 目 。 


2. 转换 : 对 某 一 条 目 应 用 一 个 操作 ， 然 后 返回 一 个 变换 了 的 条 
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3. 排序 ， 对 一 组 条 目 应 用 一 个 操作 ， 然 后 返回 一 组 具有 同样 基数 
的 、 可 能 重新 排序 过 的 条 目 。 


4. 选择 : 对 一 组 条 目 应 用 一 个 操作 ， 然 后 返回 一 组 具有 相同 或 较 
小 基数 的 、 可 能 重新 排序 的 条 目 。 


5. 缩减 ， 对 一 组 或 多 组 条 目 应 用 一 个 操作 ， 以 产生 一 个 单独 的 结 
果 。 例 如 ， 计 算 百 分 比 和 平均 数 。 


图 14.5 说 明了 在 分 于 生物 学 和 医学 的 文本 集中 探索 基因 功能 的 一 个 
假定 的 操作 序列 ， 


探索 新 基因 X 的 功能 


基因 X 
可 能 的 功能 


BE 


j 
al al 
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图 14.5 ”探索 基因 功能 的 LINDI 系 统 


其 中 基因 A、B 和 C 的 功能 是 已 知 的 ， 并 且 通 过 寻求 共同 点 来 假设 
未 知 基因 的 功能 。 映 里 操作 对 选取 的 关键 词 进行 了 排序 。 最 后 的 操作 
是 选取 那些 至 少 包含 了 一 个 最 高 级 别 关 键 词 的 文档 ， 还 有 那些 提 到 了 
所 有 3 个 已 知 基因 的 文档 。 


使 用 文本 数据 挖 拥 技 术 ，LINDI 系 统 可 以 从 有 关 基 因 A、 基 因 B 和 
基因 C 的 文献 分 析 中 ， 提 取 关 键 词 ， 并 把 这 些 关键 词 的 交叉 点 《交集 ) 
映射 到 对 于 基因 X 的 分 析 得 到 的 关键 词 中 ， 从 而 预测 基因 X 可 能 的 功 
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第 十 五 章 ” 目 然 语言 理解 、 目 动 问 
FAIRO 


自然 语言 理解 (Natural Language Understanding, fEEANLU) 研究 
如 何 让 计算 机 理解 和 运用 人 类 的 目 然 语言 ， 使 得 计算 机 懂得 目 然 语言 
的 含义 ， 并 对 人 给 计算 机 提出 的 问题 ,通过 人 机 对 话 (man-machine 
dialogue) 的 方式 ， 用 自然 语言 进行 回答 。 自 然 语言 理解 系统 可 以 用 作 
专家 系统 、 知 识 工程 、 信 息 检 索 、 目 动 问答 、 目 然 语言 人 机 接口 ， 有 
很 大 的 实用 价值 。 


本 章 诈 先 介绍 目 袋 语言 理解 研究 的 发 展 情况 ， 然 后 分 析 汉 语 目 然 
语言 理解 的 特点 和 困难 ， 最 后 讨论 目 然 语 言 理解 在 目 动 问答 、 人 机 接 
口中 的 应 用 。 


BT 目 然 语言 理解 研究 的 发 展 


早 在 计算 机 出 现 之 前 ， 著 名 数学 家 图 灵 束 提出 ， 如 采 有 一 天 人 类 
制造 出 了 计算 机 ， 那 么 ， 检 验 计 算 机 希 能 高 低 的 最 好 办 法 是 让 计算 机 
来 讲 英 语 和 理解 喘 语 ， 他 天 才 地 预见 到 计算 机 和 目 然 语 言 将 会 结 下 不 
解 之 绿 ， 提 出 了 “图 灵 试 验 ” 的 设想 。 图 灵 的 这 种 高 瞻 远 有 瞩 的 见解 ， 成 
为 目 然 语言 理解 系统 研制 的 重要 的 理论 根据 。 


1966 年 美国 公布 了 否定 机 右 翻 译 的 ALPAC 报 告 之 后 ， 处 于 草创 时 
期 的 机 需 翻 译 研 究 转 入 低洼 ， 于 是 ， 同 目 然 语言 的 计算 机 处 理 有 关 的 
人 研究， 逐渐 转 同 了 目 然 语言 理解 方面 。 学 者 们 采用 了 各 种 精巧 的 方 
法 ， 笑 试看 建立 计算 机 系统 ， 让 计算 机 理解 自然 语言 ， 而 根据 图 灵 的 
意见 ， 判 断 计 算 机 是 否 理解 了 目 然 语言 的 最 直观 的 方法 ， 就 古人 同 计 
算 机 对 话 ， 根 据 计 算 机 对 于 人 们 用 目 然 语言 所 提 的 问题 的 回答 ， 束 可 
以 看 出 计算 机 是 否 理解 了 目 然 语言 。 这 一 方面 的 研究 不 久 便 取得 了 令 
人 鼓舞 的 进展 。 因 此 ， 当 20 世 纪 60 年 代 末 期 机 玫 翻 译 困 难 重 重 、 一 筹 
英 展 的 时 候 ， 自 然 语言 理解 的 研究 却 左右 着 源 、 后 来 居 上 ， 而 当 机 器 
翻译 东山 再 起 、 重 振 旗 辟 而 进入 复苏 期 的 时 候 ， 目 然 语言 理解 却 已 获 
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目 然 语 言 理解 系统 的 发 展 可 以 分 为 第 一 代 系 统 和 第 二 代 系 统 两 个 
阶段 。 第 一 代 系 统 建立 在 对 词类 和 词 序 分 析 的 基础 之 上 ， 分 析 中 经 党 
使 用 统计 方法 ， 第 二 代 系 统 则 开始 引进 语义 甚至 语 用 和 语 境 的 因素 ， 
几乎 完全 抛 开 了 统计 技术 。 


第 一 代目 然 语言 理解 系统 义 可 分 为 四 种 类 型 : 


(1) 特殊 格式 系统 : 早期 的 自然 语言 理解 系统 大 多 数 是 特殊 格式 
系统 ， 根 据 人 机 对 话 内 容 的 特点 ， 采 用 特定 的 格式 来 进行 人 机 对 话 。 


1963 年 ， 林 德 赛 (R. Lindsay) 在 美国 卡 内 基 技 术 学 院 用 IPL-V 表 
处 理 语言 设计 了 SAD-SAM 系 统 ， 丈 采用 了 特定 格式 来 进行 关于 杀 属 天 
系 方 面 的 人 机 对 话 ， 系 统 内 建立 了 一 个 关于 亲属 关系 的 数据 库 ， 可 接 
收 关于 亲属 关系 方面 的 问题 的 英语 句子 提问 ， 用 英语 作出 回答 。 


这 个 系统 分 为 两 个 模块 : SAD 模 块 和 SAM 模 块 。 


SAD 模 块 的 任务 是 作 人 句法 分 析 ， 它 接收 输入 的 英语 句子 ， 从 左 到 
右 进 行 分 析 ， 建 立 起 这 个 英语 句子 的 推导 树 ， 然 后 ， 把 这 个 能 表示 该 
英语 句子 结构 的 推导 树 传 给 SAM 。 


SAM 模 块 的 任务 是 作 语 义 分 析 并 作出 回答 。 首 先 ， 它 从 语义 的 角 
度 抽取 有 关 亲 属 关 系 的 信息 ， 建 立 起 亲属 关系 树 ， 然 后 根据 数据 库 中 
存储 的 信息 ， 找 出 问题 的 答案 。SAD 模 块 处 理 英语 句法 结构 的 能 力 较 
强 ， 除 一 般 简 单 句 外 ， 还 能 处 理 一 些 结构 复杂 的 句子 。SAM 模 块 只 能 
处 理 杀 属 关 系 方面 的 语义 信息 ， 不 能 处 理 其 它 方面 的 语义 问题 。SAM 
在 建立 亲属 关系 树 时 并 不 考虑 输入 信息 的 顺序 。 如 有 果 先 输入 的 信息 可 
说 明 B 和 C 有 是 X 的 后 代 ，D 和 了 E 是 Y 的 后 代 ， 那 么 ， 束 建立 起 两 个 家 庭 单 
元 ; 而 如 果 根 据 别 的 信息 还 可 以 说 明 E 和 C 有 兄弟 姐妹 关系 ， 那 么 ， 束 
可 以 把 这 两 个 家 庭 单元 合并 为 一 个 家 庭 单元 。 


但 是 ，SAM 不 能 处 理 某 些 歧义 问题 。 例 如 ， 在 句子 “Joe plays in 
his aunt Jane's yard” 中 ， 珍 妮 (Jane) 或 者 是 乔 (Joe) 的 姑妈 ， 或 者 是 
FF (Joe) 的 姨妈 ，SAM 对 此 不 能 作出 判断 。 


1968 年 ， 波 布 洛 (D.Bobrow) 在 美国 嘛 省 理工 学 院 设计 了 
STUDENT 系统 。 这 个 系统 能 读 收 用 英语 写 的 高 中 代数 应 用 题 ， 列 出 
方程 求解 并 给 出 答案 。 


例如 ，STUDENT 系 统 能 解决 如 下 的 用 英语 写 的 应 用 题 ; 


If the number of customers Tom gets is twice the square of 20 per cent 
of the number of advertisements he runs, and the number of advertisements 


he runs is 45, what is the number of customers Tom gets? 


(如 果 淘 姆 争取 得 到 的 顾客 数 是 他 所 出 的 广告 数 的 百 分 之 二 十 的 
平方 的 两 倍 ， 已 知 他 出 的 广告 数 是 45， 那 么 ， 淘 姆 争取 得 到 的 顾客 数 


eB WE? ) 


STUDENT 系统 中 能 识别 的 英语 句子 可 以 从 如 下 的 基本 模式 推出 
来 : 


(what are * and *) 
(what is *) 
(How many *1 is *) 
(How many * do * have) 
(How many * does * have) 
(find *) 

(find * and *) 
(* is multiplied by *) 
(* is divided by *) 

(* is *) 

(* (*l/verb) *1 *) 

( 


* (*|/verb) * as many * as * (*1/verb) *) 


其 中 ，* 表 示 任 意 长 度 的 词 串 ，*1 表 示 一 个 单独 的 词 ， 
(*1/verb) 表示 必须 用 词典 来 识别 的 一 个 动词 。 


当 计 算 机 解 应 用 题 时 ， 首 先 要 分 析 英 语句 子 ， 理 解 这 个 应 用 题 的 
意思 ， 然 后 根据 意思 列 出 方程 ， 最 后 ， 利 用 一 个 叫做 SOLVE 的 求解 模 
块 来 求解 。 如 果 SOLVE 模 块 求解 失败 ，STUDENT 系 统 还 可 利用 探索 
法 进一步 辨识 题 意 ， 或 者 利用 一 个 叫做 REMEMBER 的 模块 来 补充 有 
关 事 实 ， 以 便 进 一 步 理解 题 意 。 


例如 ，REMEMBER 模 块 中 可 存储 如 下 信息 : 


feet is the plural of foot 
(feet 是 foot 的 复数 ) 

one half always means 0.5 
(一 半 总 是 意味 着 0.5) 


Successful candidates Sometimes means students who passed the 


admissions test 
(成 功 的 投考 者 有 时 是 指 那些 通过 了 入 学 考试 的 学 生 ) 
distance equals speed times time 
(距离 等 于 速度 乘 时 间 ) 
one foot equals 12 inches 
(一 英尺 等 于 12 英 寸 ) 


如 果 查 了 REMEMBER 模 块 还 失败 ，STUDENT 系 统 还 可 以 辣 用 户 
提问 ， 了 人 解 更 多 的 信息 ， 继 续 利用 探索 法 求解 ， 每 当 探 索 成 功 ， 就 可 
以 把 得 到 的 新 信息 存 入 SOLVE 模 块 中 ， 从 而 增强 SOLVE 模 块 的 能 
最 后 ， 如 果 求 解 成 功 ，STUDENT 系 统 就 把 求 得 的 解 用 英语 打印 出 
来 ， 如 果 解 不 出 来 ， 则 回答 它 不 能 解决 这 个 应 用 题 。 例 如 ， 上 面 的 那 
个 应 用 题 求解 成 功 后 ，STUDENT 系 统 用 英语 打印 出 如 下 的 解 : 


“The number of customers Tom gets is 162” 


(汤姆 争取 到 的 顾客 数 是 162) 


STUDENT 系统 解决 高 中 代数 应 用 题 的 能 力 很 强 ， 算 题 速度 也 很 
快 。 AIR TEI a A ABE (MIT) 试验 时 ， 它 解 题 的 速度 甚至 比 一 
MARAIS ER $ 


20 世 纪 60 年 代 初 期 ， 格 林 (B. Green) 在 美国 林肯 实验 室 建 立 了 
BASEBALL 系 统 ， 也 使 用 IPL-V 表 处 理 语言 ， 系 统 的 数据 库 中 存 贮 了 
关于 美国 1959 年 联邦 棒球 赛 得 分 记录 的 数据 ， 可 回答 有 关 棒 球赛 的 一 


些 问题 。 


BASEBALL 系统 句 法 分 析 能 力 较 差 ， 输 入 句子 十 分 人 简单， 没有 连 


fein] (如 and，or，not) ， 也 没有 比较 级 (higher, longer) ， 主 要 
是 靠 一 部 大 词典 来 进行 单词 的 识别 ， 使 用 十 四 个 词类 范畴 ， 所 有 的 问 


题 都 采用 一 种 特殊 的 规范 表达 式 来 回答 。 


工作 时 ，BASEBALL 系 统 从 右 到 左 扫描 输入 的 英语 句子 ， 把 该 句 
子 转换 为 功能 短语 ， 找 出 关键 词 ， 再 把 该 功能 短语 改写 成 一 份 说 明 
表 。 这 种 说 明 表 实质 上 是 代表 所 提 的 问题 的 意义 的 规范 表达 式 。 例 
如 : 


“How many games did the Yankees play in July?”( 七 月 间 
Yankees 队 进行 了 几 次 比赛 ?) 


这 个 问题 经 过 BASEBALL 处 理 后 ， 变 为 如 下 的 规范 表达 式 : 


TEAM =YANKEES 
MONTH =JULY 
GAMES (数目 ) GAMES (数目 ) 


其 中 ，TEAM 表 示 队 名 ， 分 析出 队 名 为 YANKEES，MONTH 表 示 
月 份 ， 分 析出 月 份 为 JULY (CA) ，GAMES 数 表示 比赛 人 次数， 是 需 
要 回答 的 问题 ， 用 问号 “? ”表示 。 


根据 这 样 的 问题 ，BASEBALL 在 数据 库 中 进行 搜索 ， 查 出 数据 库 
中 与 该 问题 相 匹配 的 数据 条 目 ， 然 后 ， 输 出 这 些 数 据 ， 作 出 回答 。 


由 于 BASEBALL 系 统 的 词典 容量 较 大 ， 可 用 试探 法 解决 菜 些 歧 义 
问题 〈 例 如 ，score 可 为 动词 “记分 ”， 亦 可 为 名 词 “ 记 录 ”，Boston 可 为 
地 名 “波士顿 市 ”， 亦 可 为 球 队 名 “波士顿 了 从 ”) ，BASEBALL 可 作出 判 
Wf e 


BASEBALL 的 程序 不 能 修改 数据 库 中 的 数据 ， 因 此 ， 这 个 系统 没 
有 演绎 推理 的 能 


(2) 以 文本 为 基础 的 系统 ， 某 些 研 究 者 不 满意 在 特殊 格式 系统 
的 种 种 格式 限制 ， 因 为 就 一 个 专门 领域 来 说 ， 最 方便 的 还 是 使 用 不 受 
特殊 格式 结构 限制 的 系统 来 进行 人 机 对 话 ， 这 束 出 现 了 以 文本 为 基础 
的 系统 。 


1966 年 西蒙 斯 (R.F. Simmons) 、 布 尔格 (J.F. Burger) 和 龙 格 
(R.E. Long) 设计 的 PROTOSYNTHEX-I 系 统 ， 就 是 以 文本 信息 的 存 
贮 和 检索 方式 工作 的 。 


(3) 有 限 逻 辑 系 统 ， 有 限 逻 辑 系 统 进一步 改进 了 以 文本 为 基础 的 
系统 。 在 这 种 系统 中 ， 目 然 语言 的 句子 以 某 种 更 加 形式 化 的 记号 来 蔡 
代 ， 这 些 记 号 组 成 一 个 有 限 逻 辑 系 统 ， 可 以 进行 某 些 推 理 。 


1968 年 ， 拉 菲 尔 (B. Raphael) 在 美国 麻 省 理工 学 院 用 LISP 语 言 建 
立 了 SIR 系 统 ， 针 对 英语 提出 了 24 个 匹配 模式 ， 把 输入 的 英语 句子 与 
这 些 模 式 相 匹配 ， 从 而 识别 输入 句子 的 结构 ， 在 从 存 贮 知识 的 数据 库 
到 回答 问题 的 过 程 中 ， 可 以 处 理 人 们 对 话 中 常用 的 一 些 概 念 ， 如 集合 


的 包含 关系 、 空 间 关 系 等 等 ， 还 可 以 做 简单 逻辑 推理 ， 机 右 并 能 在 对 
话 中 进行 学 习 ， 记 住 已 学 过 的 知识 ， 从 事 一 些 初 步 的 智能 活动 。 


SIR 中 针对 英语 提出 了 24 个 匹配 模式 ， 把 输入 的 英语 句子 与 这 些 
模式 相 匹配 ， 从 而 识别 输入 句子 的 结构 。SIR 还 能 处 理 人 们 对 话 中 各 
用 的 一 些 概念 ， 如 集合 的 包含 关系 、 空 间 关 系 等 等 ， 这 样 ， 它 束 能 作 
蕊 步 的 逻辑 推理 ， 使 这 个 系统 有 一 点 “智能 ”。 


例如 ，SIR 系 统 中 提出 了 如 下 的 模式 : 


* is * 
* is part of * 
there are * on x 
Is * * ? 
How many * does * have? 
what is the * of * ? 


其 中 ，*# 表 示 名 词 ， 这 样 的 名 词 前 可 用 限定 词 a，the，every，each 
或 数 词 来 修饰 ， 当 输入 句子 与 这 些 模 式 相 匹 配 时 ，SIR 系 统 会 触发 出 
一 定 相 应 的 动作 ， 从 而 进行 人 机 对 话 。 


下 面 是 SIR 系 统 进行 的 人 机 对 话 的 一 个 片段 : 


AX: Every boy is a person. 
(每 个 男孩 都 是 人 。) 

WL: I understand. 

(我 明白 了 。) 

人 : A finger is part of a hand. 
(指头 是 手 的 一 部 分 。) 


WL: Iunderstand. 
(我 明白 了 。) 
人 : There are two hands on each person. 
(每 个 人 有 了 两 只 手 。) 
WL: I understand. 
(RIAT °) 
A: How many fingers does John have? 
(约翰 有 几 个 指头 ? ) 
机 : The above sentence is ambiguous but I assume (has ) 
means (has as parts) . 
I don't know whether finger is part of John. 
(上 人 句 话 是 有 歧义 的 ， 但 我 假定 “有 ”的 意思 是 “作为 各 个 部 分 
WA” ° 我 不 知道 指头 是 不 是 约翰 的 一 部 分 。) 
人 : John is a boy. 
(约翰 是 一 个 男孩 。) 
WL: Iunderstand. 
(RIAT °) 
A: How many fingers does John have? 
(约翰 有 几 个 指头 ?) 


机 : The above sentence is ambiguous but I assume (has) 


means (has as parts) . How many fingers per hand? 

CEA ABH, (EERE AAT Be TEAS Bao 
WA” * APRIL MHEA? ) 

人 : Every hand has 5 fingers. 

(AFAR MBS ° ) 


NL: The above sentence is ambiguous but I assume (has) 


means (has as parts) . The answer is 10. 


(上 人 句 话 是 有 歧义 的 ， 但 我 假定 “有 ”的 意思 是 “作为 各 个 部 分 
HA” o 答案 是 10。) 

A: Who is President of the United States? 

( 谁 是 美国 的 总 统 ? ) 

机 : Statement form not recognized. 


(该 句子 的 型 式 我 不 能 辨识 。) 


在 上 述 对 话 中 ， 机 絮 分 析 与 24 个 模式 相 匹 配 的 句子 ， 对 于 这 些 句 
子 ， 机 器 能 利用 系统 中 已 存储 的 一 些 概念 进行 简单 的 推理 。 例 如 ， 在 
前 面 儿 个 问答 中 ， 机 器 知道 了 如 下 知识 : 


中 男孩 是 人 ; 

指头 是 手 的 一 部 分 ; 

(3 每 个 人 有 两 只 手 。 

SAAR AULT EA? ”的 时 候 ， 由 于 这 时 机 器 不 知道 约 几 是 
不 是 人 ， 因 而 束 无 法 判断 指头 是 不 是 约翰 身体 上 的 一 部 分 ， 在 这 种 情 
况 下 ， 机 器 急切 地 想 知 道 约翰 是 不 是 人 。 当 人 提示 机 器“ 约 甚 古 一 个 男 
孩 ”* 的 时 候 ， 机 妖 利 用 已 经 知道 的 信息 ， 蕊 上 可 以 推出 “约翰 古 一 个 
人 ”， 而 人 是 有 两 只 手 的 ， 指 头 是 手 的 一 部 分 ， 因 而 指头 也 必然 旦 约 险 
身体 上 的 一 部 分 。 


确定 了 指头 是 约 革 映 体 上 的 一 部 分 之 后 ， 由 于 机 右 知 道 约翰 是 
人 ， 人 有 两 只 手 ， 故 机 器 可 推出 约翰 有 两 只 手 。 这 时 ， 为 了 算出 约 鞭 
AJLA, DORA APRIL aA, Tue. Haste): “每 只 手 
AJLA? ”人 回答 后 ， 机 器 知道 了 每 只 手 有 五 个 指 尖 ， 因 此 ， 机 器 
便 可 作出 判断 ， 作 出 回答 : “答案 是 10”， 即 约 项 有 10 个 指头 。 


我 们 可 以 看 到 ， 在 这 个 人 机 对 话 中 ， 机 器 一 方面 要 识别 句子 的 结 
构 ， 另 一 方面 也 得 进行 一 些 简 单 的 推理 ， 目 己 在 对 话 中 进行 学 习 ， 并 
记 住 已 学 到 的 知识 ， 从 事 一 些 初 步 的 智能 活动 。 


对 于 24 个 匹配 模式 之 外 的 句 型 ， 机 器 是 不 能 识别 的 。 当 人 间 “Who 
is President of the United states?” 时 ， 由 于 机 需 没 有 分 析 这 种 句 型 的 能 
力 ， 因 此 它 回 答 :“ 该 句子 的 型 式 我 不 能 辨识 ”。 


1965 年 ， 斯 莱 格 勒 (J.R. Slagle) 建立 了 DEDUCOM 系 统 ， 可 在 信 
居 检 索 中 进行 演绎 推理 。 


19664F, f) (EB. Thompson) 建立 了 DEACON 系 统 ， 通 过 英 
语 来 管理 一 个 虚构 的 军用 数据 库 ， 设 计 中 使 用 了 环 结构 和 近似 英语 的 
概念 来 进行 推理 。 


1968 年 ， 凯 罗 格 (C. Kellog) 在 IBM 360/671 SX BL E, Æ T 
CONVERSE 系 统 ， 该 系统 能 根据 天 于 美国 120 个 城市 的 1 000 个 事实 的 
文件 来 进行 推理 。 


(4) 一 般 演绎 系统 : 一 般 演 绎 系统 使 用 某 些 标准 数学 符号 (如 谓 
词 演算 符号 ) 来 表达 信息 。 例 如 ， 


Some girls are pretty 
(有 些 女孩 是 漂亮 的 ) 
这 个 英语 句子 可 表示 为 


Jx (Girl (x) & Pretty (x) ) ， 
Every girl is pretty 
(所 有 的 女孩 都 漂亮 ) 


这 个 一 英语 句子 可 以 表示 为 
Vx (Girl (x) —Pretty (x) ) . 


其 中 ，3 征 存在 量词 ， 取 表示 存在 某 个 x，Y 和 是 全 称 量词 ，Vx 表 示 对 于 
Wx, SERS, eH Ss, XR... J| ers 


这 样 一 来 ， 逻 辑 学 家 们 在 定理 证 明 工 作 上 取得 的 全 部 成 就 ， 就 可 
以 用 来 作为 建立 有 效 的 演绎 系统 的 根据 ， 从 而 能 够 把 任何 一 个 问题 用 
定理 证 明 的 方式 表达 出 来 ， 并 实际 地 演绎 出 所 需要 的 信息 ， 用 目 然 语 
言 作 出 回答 。 一 般 演绎 系统 可 以 表达 那些 在 有 限 逻辑 系统 中 不 容易 表 
达 出 来 的 复杂 信息 ， 从 而 进一步 提高 了 目 然 语言 理解 系统 的 能 


1968 一 1969 年 ， 格 林 和 拉 菲 尔 建立 的 QA2, QA3 系 统 ， 采 用 谓词 演 
算 的 方式 和 格式 化 的 数据 (formated data) 来 进行 演绎 推理 ， 解 答 问 
题 ， 并 用 英语 作出 回答 ， 这 是 一 般 演 绎 系统 的 典型 代表 。 


以 上 介绍 的 各 种 系统 都 属于 第 一 代目 然 语 言 理解 系统 。 


1970 年 以 来 ， 出 现 了 一 定数 量 的 第 二 代 上 自然 语言 理解 系统 ， 这 些 
系统 绝 大 多 数 是 程序 演绎 系统 ， 大 量 地 进行 语义 、 语 境 以 至 语 用 的 分 
析 。 其 中 比较 有 名 的 系统 是 LUNAR 系 统 、SHRDLU 系 统 、MARGIE 系 
统 、SAM 系 统 、PAM 系 统 。 


LUNAR 系 统 是 伍 效 于 1972 年 设计 的 一 个 自然 语言 情报 检索 系统 ， 
其 目的 在 于 帮助 地 质 学 家 们 比较 和 评价 从 阿波 罗 -11 火 箭 得 到 的 关于 月 
球 岩 石和 土壤 的 组 成 成 分 的 化 学 分 析 数 据 ， 这 个 系统 采用 形式 提问 语 
言 (formal query language) 来 表示 所 提问 的 语义 ， 从 而 对 提问 的 句子 


作出 语义 解释 ， 最 后 把 形式 提问 语言 执行 于 数据 库 ， 产 生出 对 问题 的 
回答 。 


这 个 系统 有 一 定 的 实用 性 ， 显 示 了 目 然 语言 理解 系统 对 科学 和 生 
产 的 积极 作用 ， 因 而 大 大 地 推动 了 这 方面 的 研究 工作 。 


LUNAR 系 统 的 工作 可 分 为 三 个 阶段 : 
第 一 阶段 : 句法 分 析 


采用 AIN (扩充 转移 网 络 ) 及 语义 探索 方法 产生 出 所 提问 题 的 推 
导 树 。LUNAR 系 统 能 处 理 大 部 分 英语 的 提问 名 型 ， 词 典 容 量 是 3,500 
词 ， 可 以 解决 时 态 、 语 式 、 代 词 所 指 、 比 较 级 、 关 系 从 句 以 及 某 些 巾 
入 成 分 结构 等 较为 困难 的 问题 。 不 过 ， 在 分 析 连 毛 词 以 及 解决 修饰 词 
的 菏 些 歧义 问题 时 ， 还 常常 会 出 现 矿 烦 。 该 系统 已 足以 处 理 地 质 学 家 
们 经 常用 来 提问 的 那些 英语 句 型 了 。 


下 面 症 LUNAR 系 统 能 够 理解 的 一 些 英 语句 子 : 


1. What is the average concentration of aluminium in high alkali rocks? 
(高 碱 性 岩石 中 铝 的 平均 密集 度 是 多 少 ? ) 
2. What samples contain P205? 
( 哪 一 些 样本 中 含有 P2053) 
. Give me the modal analyses of P205 in those samples. 


(给 我 作出 这 些 样 本 中 P205 的 常规 分 析 。) 


UJ 


第 二 阶段 : 语义 解释 


用 形式 提问 语言 (formal query language) 来 表示 所 提问 题 的 语 
义 ， 从 而 对 提问 的 句子 作出 语义 解释 。 


形式 提问 语言 由 三 部 分 组 成 : 

i 标志 符 : 它 标志 在 数据 库 中 所 存储 事物 的 类 别 ; 
i. 语句 : 它 由 谓语 及 论 元 组 成 ， 而 论 元 就 是 标志 符 ; 
ii. FES: 它 可 启动 一 个 动作 。 


例如 : (TEST (CONTAIN S10046 OLIV) ) 是 形式 提问 语言 的 
一 个 表达 式 。 其 中 ，S10046 是 某 种 样本 的 标志 符 ，OLIV 是 橄榄 石 这 种 
矿物 的 标志 符 ，CONTAIN 是 谓词 ，TEST 是 真 值 检 查 指 令 。 这 个 表达 
式 的 意思 是 : 检查 在 样本 S10046 中 是 不 是 舍 有 橄榄 石 这 种 矿物 。 


形式 提问 语言 有 一 种 这 有 量词 画 数 FOR 的 表达 式 ， 形 式 如 下 : 


(FOR QUANT X/CLASS: PX; QX) 


其 中 ，QUANT 是 如 each，every， 数 字 等 这 样 的 逻辑 量词 ，X 是 要 
用 这 样 的 量词 来 说 明 的 变量 ，CLASS 确 定量 词 所 涉及 的 事物 的 范围 ， 
PX 表示 对 这 个 范围 加 的 限制 ，QX 是 要 用 量词 来 说 明 的 语句 或 指令 。 


fll, (FOR EVERY X1/ (SEQ TYPECS) : T; (PRINTOUT 
X1) ) 就 是 一 个 这 样 的 形式 提问 语句 。 其 中 ，SEQ 表 示 枚 举 ， 
PRINTOUT 表 示 打 印 论 元 的 标志 符 ， 由 于 对 量词 的 范围 没有 限制 ， 所 
以 ，PX=T。 


这 个 形式 提问 语句 的 意思 是 :“ 枚 举 出 所 有 类 型 为 C 的 样本 的 样本 
2 FLOR © ” 


第 三 阶段 : 回答 问题 


把 形式 提问 语言 表达 式 执 行 于 数据 库 ， 产 生出 对 问题 的 回答 。 


LUNAR 系 统 的 一 个 完整 的 操作 例子 如 下 : 
dé ln]: 


(Do any samples have greater than 13 percent aluminium) 


( 举 出 任意 的 含 铝 量 大 于 百 分 之 十 三 的 样本 ) 
经 过 分 析 后 得 出 的 形式 提问 语言 大 


( TEST ( FOR SOME X1/ ( SEQ SAMPLES) : T; 
(CONTAIN XI 


(NPR * X2/AL203) (GREATERTHAN 13 PCT) ) ) ) 


YES 


然后 ，LUNAR 系 统 可 枚 举 出 一 些 售 铝 量 大 于 百 分 之 十 三 的 样本 。 


LUNAR 系 统 的 专业 范围 有 严格 的 限制 ， 在 语言 处 理 中 尽量 解决 那 
些 常见 的 语法 现象 ， 不 花 过 多 的 精力 去 解决 那些 目前 水 平 还 不 能 解决 
的 复杂 问题 ， 因 而 能 很 快 地 投入 实用 ， 为 地 质 学 家 们 提供 了 一 个 有 用 
的 自然 语言 信息 检索 系统 。 


SHRDLU 系 统 是 维 诺 格 拉 德 (T. Winograd) 于 1972 年 在 美国 麻 省 
理工 学 院 建立 的 一 个 用 自然 语言 指挥 机 器 人 动作 的 系统 。 该 系统 把 句 
法 分 析 、 语 义 分 析 、 逻 辑 推理 结合 起 来 ， 大 大 地 增强 了 系统 在 语言 分 
析 方 面 的 功能 。 该 系统 对 话 的 对 象 是 一 个 具有 人 简单 的 “ 手 * 和 “有 眼 ” 的 玩 
具 机 器 人 ， 它 可 以 操作 放 在 桌子 上 的 具有 不 同 颜色 、 尺 寸 和 形状 的 玩 
具 积 木 ， 如 立方 体 、 楼 锥 体 、 盒 子 等 ， 机 器 人 能 够 根据 操作 人 员 的 命 


令 把 这 些 积木 捡 起 来 ， 移 动 它们 去 搭 成 新 的 积木 结构 ， 在 人 机 对 话 过 
程 中 ， 操 作 人 员 能 获得 他 发 给 机 器 人 的 各 种 视觉 反馈 ， 实 时 地 观 绎 机 
堪 人 理解 语言 、 执 行 命令 的 情况 。 在 电视 屏幕 上 还 可 以 显示 出 这 个 机 
郁 人 的 模拟 形象 以 及 它 同 一 个 真正 的 活 人 在 电 传 机 上 目 由 地 用 英语 对 
话 的 生动 情景 。 


E151 SHRDLU 系统 示意 图 


下 面 是 SHRDLU 系 统 中 人 和 计算 机 之 间 的 一 段 对 话 : 


人 问 : PICK UP A BIG RED BLOCK. 

机 答 : OK.〈 抓 起 大 的 红色 积木 块 ) 

人 问 : GRASP THE PYRAMID. 

机 答 : IDONT UNDERSTAND WHICH PYRAMID YOU 
MEAN. 

Atal: FIND A BLOCK WHICH IS TALLER THAN THE ONE 
YOU ARE HOLDING AND PUT IT INTO THE BOX. 

机 答 : BY*IT", I ASSUME YOU MEAN THE BLOCK WHICH 
IS TALLER THAN THE ONE I AM HOLDING. 


| 


机 答 : OK. 〈 抓 起 比 计算 机 拿 着 的 积木 块 更 高 的 积木 块 ， 并 
把 它 放 入 箱子 中 ) 

AIR]: WHAT DOES THE BOX CONTAIN? 

机 答 : THE BLUE PYRAMID AND THE BLUE BLOCK. 

AIR]: WHAT IS THE PYRAMID SUPPORTED BY? 

机 答 : THEBOX. 


读者 可 以 参照 图 5 中 的 示意 图 来 体会 这 段 人 机 对 话 的 内 容 。 


MARGIE 系 统 和 是 尚 克 于 1975 年 在 美国 斯 坦 福 人 工 智能 实验 室 研 制 
出 来 的 。 该 系统 的 目的 在 于 提供 一 个 目 然 语 言 理解 的 直观 模型 。 系 统 
首先 把 英语 句子 转换 为 概念 依存 表达 式 ， 然 后 根据 系统 中 有 关 信 息 进 
行 推理 ， 从 概念 依存 表达 式 中 推演 出 大 量 的 事实 。 由 于 人 们 在 理解 句 
了 于 时 ， 忌 要 牵涉 到 比 句子 的 外 部 表达 多 得 多 的 内 容 ， 因 此 ， 该 系统 的 
推理 有 16 种 类 型 ， 如 原因 、 效 应 、 说 明 、 功 能 等 等 ， 最 后 ， 把 推理 的 
结 采 转换 成 英语 输出 。 


SAM 系 统 是 阿 贝尔 森 (R. Abelson) 于 1975 年 在 美国 耶鲁 大 学 建 
立 的 。 这 个 系统 采用 “脚本 ” (script) 的 办 法 来 理解 自然 语言 写 的 故 
事 。 所 谓 脚 本 ， 就 是 用 来 描述 人 们 活动 (如 上 饭馆 、 看 病 ) 的 一 种 标 
准 化 的 事件 系列 。 尚 元 和 阿 贝 尔 森 假定 ， 每 个 人 在 他 自己 的 生活 实践 
中 ， 会 卓然 而 然 地 意识 到 这 样 的 脚本 ， 在 理解 故事 时 ， 这 些 脚 本 可 以 
用 来 构建 时 间 发 生 的 语 境 ， 因 而 也 就 可 以 用 来 预料 它 所 代表 的 事件 的 
情况 ， 并 以 这 些 脚本 为 背景 来 理解 自然 语言 ， 对 故事 中 的 人 物 、 地 
点 、 事 件 进 行 推 理 ， 在 推理 过 程 中 ， 给 它们 补充 新 的 信息 ， 最 后 采 
用 “ 同 义 互 训 ” (paraphrase) 的 方法 ， 根 据 计 算 机 理解 的 结果 ， 由 计算 
机 复述 原来 的 故事 。 复 述 时 ， 由 于 在 推理 过 程 中 补充 了 许多 新 的 信 
晨 ， 因 而 所 复述 的 故事 的 内 容 会 比 原来 的 故事 要 丰富 得 多 。 计 算 机 似 


平 像 一 个 有 理智 的 活 人 ， 把 在 推理 过 程 中 所 推出 的 新 信息 加 到 故事 
中 ， 添 油 加 醋 地 把 原来 的 故事 说 得 更 加 精彩 。 例 如 ， 输 入 这 样 的 简单 
的 故事 : “约翰 走 进 了 一 家 饭馆 。 他 坐 了 下 来 。 他 生气 了 。 他 走 
了 。”SAM 系 统 的 输出 为 :“ 约 鞭 俄 了 。 他 决定 到 饭 馅 去 。 他 走 进 了 一 
家 饭馆 。 服 务 员 没 理 他 。 于 是 约翰 生气 了 。 他 决定 离开 这 个 饭馆 。” 计 
算 机 推论 出 ， 约 除 离 开饭 饶 的 原因 是 坐 下 来 之 后 没有 得 到 服务 。 这 有 是 
因为 在 天 于 饭 饰 的 “脚本 ”中 ， 有 “服务 员 送 采 单 * 的 项 目 ， 而 输入 句子 
中 没有 这 样 的 内 容 ， 却 有 约翰 生气 的 句子 ， 因 此 ，SAM 系 统 作 出 了 这 
样 的 推论 。 


PAM 系 统 是 威 林 斯 基 (R. Wilensky) 于 1978 年 在 美国 耶鲁 大 学 建 
立 的 另 一 个 理解 故事 的 系统 。PAM 系 统 也 能 解释 故事 情节 ， 回 答 问 
题 ， 进 行 推论 ， 作 出 摘要 。 它 除了 “脚本 ”中 的 事件 序列 之 外 ， 还 提出 
了 “计划 ” (plan) 作为 理解 故事 的 基础 。 所 谓 * 计 划 ”， 就 是 故事 中 的 人 
物 为 实现 其 目的 所 要 采取 的 手段 。 如 果 要 通过 “计划 ”来 理解 故事 ， 就 
要 找 出 人 物 的 目的 以 及 为 完成 这 个 目的 所 采取 的 行动 。 系 统 中 设 有 一 
个 “计划 库 ”(\plan box) ， 存 贮 着 有 关 各 种 目的 的 信息 以 及 各 种 手段 的 
言 息 。 这 样 ， 在 理解 故事 时 ， 只 要 求 出 故事 中 有 关 情 节 与 计划 库 中 存 
贮 的 信息 相 重 合 的 部 分 ， 就 可 以 理解 到 这 个 故事 的 目的 是 什么 。 当 把 
一 个 一 个 的 故事 情节 与 脚本 匹配 出 现 障 碍 时 ， 由 于 “计划 库 * 中 可 提供 
关于 一 般 目 的 的 信息 ， 就 不 致 造成 故事 理解 的 失败 。 例 如 ， 营 救 一 个 
被 暴徒 抢 走 的 人 ， 在 “营救 "这 个 总 目的 项 下 列举 出 若干 个 子 目 的 ， 包 
括 到 达 暴 徒 的 梨 穴 以 及 杀 死 暴徒 的 各 种 方法 ， 就 可 以 预期 下 一 步 的 行 
为 。 同 时 能 根据 主题 来 推论 目的 。 例 如 ， 输 入 故事 : “约翰 爱 玛 丽 。 玛 
丽 被 暴徒 抢 走 了 。”PAM 系 统 即 可 预期 约翰 要 采取 行动 营救 玛丽 。 故 事 
中 虽然 没有 这 样 的 内 容 ， 但 是 ， 根 据 计划 库 中 的 “爱情 主题 ?>， 可 以 推 
出 “约翰 要 采取 行动 营救 玛丽 ”的 情 方 。 


尚 克 等 学 者 还 进一步 研究 语言 理解 和 记忆 的 关系 ， 概 括 各 种 具体 
知识 结构 为 一 般 经 验 ， 综 合 名 法、 语义 、 知 识 、 推 理 为 一 体 ， 建 成 
FRUMP 和 IPP 两 个 快速 阅读 系统 。 这 两 个 系统 存 贮 2 000 多 个 英语 单 
词 ， 对 输入 故事 无 须 逐 字 逐 句 地 分 析 ， 而 是 跳 过 某 些 无 关 的 词语 提取 
故事 中 的 主要 信息 。 这 样 的 系统 可 以 对 报刊 上 一 些 新 闻 故 事 上 自动 地 做 
出 摘要 。 


上 述 的 系统 都 是 书面 的 自然 语言 理解 系统 ， 输 入 输出 都 是 用 书面 
文字 。 口 头 的 目 然 语言 理解 系统 ， 还 牵涉 到 语音 识别 、 语 音 合成 等 复 
杂 的 技术 ， 显 然 是 更 加 困难 的 课题 ， 口 头目 然 语言 理解 系统 的 研究 近 
年 来 也 有 很 大 的 发 展 。 


我 国 自然 语言 理解 的 研究 起 步 较 晚 ， 比 国外 上 晚 了 17 年 。 国 外 在 
1963 年 就 建成 了 早期 的 自然 语言 理解 系统 ， 而 我 国 直 到 1980 年 才 建 成 
了 两 个 汉语 自然 语言 理解 模型 ， 都 以 人 机 对 话 的 方式 来 实现 。 这 两 个 
模型 中 ， 一 个 是 中 国 社会 科学 院 语 言 研 究 所 的 “RJD-80 型 汉语 人 机 对 
话 系统 ”( 简 称 *RJD-80 系 统 ”) ， 属 语言 学 模型 ， 一 个 是 中 国 科 学 院 心 
理 研 究 所 的 “机 器 理解 汉语 一 一 实验 I: CLUS 系 统 ”， 属 心理 学 模型 。 语 
言 学 模型 强调 对 语言 结构 本 身 进行 分 析 ， 而 心理 学 模型 则 强调 模拟 理 
解 语言 时 的 心理 活动 ， 注 意 语言 意义 的 理解 。 


1984 年 ， 中 国 社会 科学 院 语言 研究 所 又 进行 了 “TK-84 型 汉语 人 机 
对 话 系 统 ”( 简 称 “TK-84 系 统 ”) 的 研制 。 该 系统 以 铁路 客运 咨询 为 主 
题 ， 存 贮 汉语 单词 200 条 ， 句 型 30 多 个 ， 内 容 包 括 北 京 至 东北 几 条 铁路 
客运 快车 的 到 站 、 中 途 站 、 开 点 、 到 上 点、 车次、 车 种 、 车 组 等 也 以 人 
机 对 话 方式 来 实现 。 


例如 ， 


人 问 : “从 北京 到 大 连 有 快车 吗 ? ” 

WE: SARR, RAER o” 

人 问 :“ 有 哪 几 次 直 快 ? ” 

HUA: “101/104, 129/132 ° " 

AW: “153 次 过 唐山 吗 ? ” 

机 答 : “153 次 走 京 坨 线 到 沈阳 ， 不 经 过 唐山 。” 


再 如 ， 


人 间 :“ 开 往 沈阳 的 快车 都 有 甲 铺 吗 ? ” 

机 管 :“11 次 没有 卧铺 ， 其 他 都 有 。” 

ARI. “11 次 为 什么 没有 围 铺 ?” 

SVE: “11 次 8 点 从 北京 开 ，18 点 49 分 到 沈阳 ， 卧 铺 没有 必 
Ro” 


可 以 看 出 ， 这 样 的 目 然 语言 理解 系统 已 经 具备 了 初步 的 推理 能 
力 ， 是 一 个 简单 的 目 动 问答 系统 和 目 然 语 言 接口 。 


20 世 纪 80 年 代 中 期 ， 在 国际 新 一 代 计 算 机 激烈 竞争 的 影响 下 ， 目 
然 语 言 理解 的 研究 在 国内 得 到 了 更 多 的 重视 ,“ 目 然 语言 理解 和 人 机 接 
口 ? 列 入 了 新 一 代 计 算 机 的 研制 规划 ， 研 究 单位 增多 了 ， 人 研究 队伍 也 壮 


1985 年 ， 东 北大 学 姚 天 顺 建 立 了 “中 文句 子 及 文本 理解 系统 
CTUS”， 这 是 一 个 基于 概念 的 汉语 理解 系统 ; 1988 年 ， 清 华 大 学 黄 昌 
宁 等 提出 汉语 句法 分 析 的 多 扫 拉 确定 性 算法 ， 建 立 了 一 个 面 问 军事 情 
报 的 汉语 篇 章 理 解 实 验 系 统 TUSMI， 接 着 又 建立 了 WPS 汉 语 通用 人 机 
接口 和 学 籍 管理 系统 的 汉语 专用 人 机 接口 ;1990 年 ， 南 系 大 学 钱 树 人 


等 建立 了 找 水 专家 系统 的 汉语 专用 人 机 接口 CNLIGW 和 汉语 歧义 分 析 
模型 系统 CAAMS; 吉林 大 学 黄 祥 喜 等 建立 了 石油 专家 系统 PRES 的 汉 
语 专 用 人 机 接口 HRJ; 北京 信息 工程 学 院 开 发 了 信息 检索 系统 的 汉语 
人 机 接口 ， 中 国 科 学 院 沈 阳 自 动 化 研究 所 研制 了 汉语 人 机 接口 NLI- 
db3; 哈尔滨 工业 大 学 研制 了 基于 段落 理解 的 汉语 问答 实验 系统 
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山西 大 学 计算 机 科学 系 张 永 奉 等 根据 《哺乳 动物 百科 全 书 》 (The 
Macdonald Encyclopedia of Mammals ) 的 描述 文本 ， 建 立 了 哺乳 动物 
数据 库 ， 并 开发 了 这 个 哺乳 动物 数据 库 的 自然 语言 前 端 (natural 
language frontend) ， 用 户 可 用 英语 的 自然 语言 形式 与 哺乳 动物 数据 库 
系统 进行 人 机 交互 。 


中 国 科 学 院 心 理 研 究 所 从 灿 、 陈 永明 等 根据 汉语 的 部 分 词汇 与 世 
界 现 象 之 间 的 对 应 天 系 和 人 类 记忆 过 程 的 特征 ， 建 立 了 一 个 适用 于 汉 
语 篇 章 理解 的 记忆 模型 ， 这 个 模型 能 够 组 织 汉 语 篇 草 理解 过 程 中 所 需 
的 各 种 知识 ， 并 将 系统 的 词典 与 知识 库 有 机 地 结合 在 一 起 ， 初 步 建 成 
了 一 个 汉语 篇 章 理 解 系统 。 


近年 来 ， 目 然 语 言 理解 义 进步 扩大 到 了 目 动 问答 系统 和 目 然 语言 
人 机 接口 的 领域 。 关 于 目 然 语言 理解 的 这 些 更 加 新 近 的 研究 情况 ， 我 
们 将 在 “ 目 动 问答 系统 ”和 “ 目 然 语言 人 机 接口 ”等 证 介绍。 下面， 我 们 
具体 地 分 析 一 下 汉语 目 然 语 言 理解 的 特点 和 困难 。 


BT ”汉语 目 然 语 言 理解 的 特 挟 
和 困难 


我 国 目 然 语 言 理解 人 研究 虽然 取得 了 一 定 的 成 绩 ， 但 研究 的 深度 还 
不 够 ， 离 实用 化 商品 化 还 有 不 小 的 距离 。 


用 计算 机 对 汉语 进行 目 动 的 理解 ， 面 对 的 困难 和 问题 要 比 印 欧 语 
系 的 语言 如 英语 、 俄 语 、 法 语 、 德 语 等 要 多 一 些 ， 除 了 目 然 语言 理解 
研究 面 对 的 共性 问题 之 外 ， 汉 语 理解 还 有 目 己 特 殊 的 困难 和 问题 ， 这 
些 困 难 和 问题 主要 在 语言 方面 。 大 致 归纳 如 下 : 


(1) 汉语 的 书面 形式 是 连续 书写 的 ， 词 与 词 之 间 没 有 上 自然 的 界 
限 ， 因 此 ， 汉 语 的 目 然 语言 理解 首先 要 解决 单词 的 目 动 切 分 问题 ， 而 
汉语 既 无 词尾 形态 标记 ， 又 基本 上 没有 形态 变化 ， 目 动 切 词 的 难度 很 
大 。 


(2) 大 多 数 汉语 的 词 本 身 不 能 明确 地 表达 语法 意义 ， 汉 语 的 句法 
主要 徘 词 序 和 虚词 来 表示 ， 而 汉语 句子 的 词 序 比较 灵活 ， 和 常用 虚词 的 
用 法 十 分 复杂 ， 而 且 常常 省 略 ， 虚 词 往往 是 多 义 的 ， 同 一 个 虚词 往往 
可 以 表达 不 同 的 润 义 ， 其 中 的 许多 规律 ， 至 今 沿 迷离 朴 猥 ， 不 知 所 
以 ， 这 样 ， 要 把 词 序 和 虚词 所 带 的 语法 信息 以 形式 化 的 方式 提供 给 计 
算 机 ， 束 是 一 件 十 分 困难 的 语言 学 研究 工作 。 这 件 工作 现在 才刚 刚 起 
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(3) 汉语 的 实 词 也 需要 深入 辨 机 ， 特 别 是 常用 动词 ， 其 意义 和 用 
法 和 干 差 万 别 ， 葛 衷 一 是 ， 而 其 意义 和 用 法 的 不 同 点 ， 恰 恰 生 理解 汉语 
语义 的 重要 依据 ， 因 此 ， 必 须 确 切 地 描写 汉语 实 词 (特别 是 动词 ) 的 
各 种 用 法 ， 指 出 其 用 法 上 的 区 别 ， 说 明 其 使 用 条 件 ， 建 立 产生 式 的 汉 
语 语法 体系 ， 并 且 用 形式 化 的 方式 将 其 表示 出 来 。 这 是 十 分 浩 楷 的 工 
作 ， 目 前 才 着 手 进 行 。 


(4) 汉语 的 形容 词 一 般 可 以 作 谓 语 和 定语 ， 但 是 ， 有 许多 形容 词 
不 能 做 谓语 ， 又 有 一 些 形 容 词 不 能 直接 作 定语 ， 必 须 具 体 地 说 明 形 容 
词 作 谓语 或 作 定 语 的 条 件 ， 而 目前 在 这 方面 的 研究 才刚 刚 起 步 。 


(5) 汉语 中 名 词 修 饰 名 词 时 十 分 自由 ， 有 时 加 “的 "， 有 时 不 
加 “的 ”， 一 连 捉 的 名 词 硬 加 在 一 起 ， 可 以 形成 层次 非常 复杂 的 偏 正 结 
构 ， 计 算 机 对 于 这 样 复杂 的 结构 的 目 动 分 析 往 往 显 得 无 能 为 力 ;而 
且 ， 名 词 修饰 名 词 也 不 是 十 分 自由 的 ， 我 们 对 于 名 词 修饰 名 词 的 条 件 
还 没有 作 过 充分 的 研究 。“ 名 词 + 名 词 ” 这 样 的 结构 本 号 在 句法 上 还 存在 
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(6) 连 动 式 和 兼 语 式 是 汉语 的 两 种 特殊 名 型， 在 这 样 的 特殊 句 型 
以 及 由 多 个 动词 构成 的 句子 中 ， 由 于 邦和 干 个 动词 或 动词 词组 相互 连接 
时 没有 明显 的 形式 标志 ， 主 要 动词 淹没 在 一 大 堆 动 词 之 中 ， 计 算 机 往 
往 难 于 确定 其 中 的 主要 动词 ， 而 如 果 主 要 动词 的 判定 有 误 ， 整 个 结构 
的 分 析 必 定 失败 。 在 兼 语 式 中 ， 兼 语 又 作 主语 ， 又 作 宾 语 ， 使 得 句子 
中 除了 原来 的 主语 之 外 ， 又 出 现 了 一 个 兼作 宾语 的 新 主语 ， 句 子 中 出 
现 一 个 以 上 的 主语 ， 与 传统 的 印 欧 语 中 “主语 + 谓语 ?那样 的 一 个 主语 和 
一 个 谓语 单纯 地 相互 结合 的 句 式 有 很 大 不 同 ， 也 给 汉语 的 目 动 句法 分 
析 市 来 极 大 的 困难 。 


(7) 汉语 的 量词 特别 丰富 ， 量 词 与 名 词 之 间 有 着 固定 的 搭配 关 
A, BN, REANIM MEA AERA, MA, Fe 
量词 勾 可 兼作 名 词 ， 有 的 名 词 不 能 受 数量 结构 的 修饰 ， 量 词 的 分 析 和 
判定 也 是 汉语 目 动 理解 中 的 一 个 难题 。 


(8) 汉语 句子 中 的 主语 和 谓语 之 间 ， 没 有 性 、 数 的 一 致 关系 ， 又 
营利 出 现 省 略 主语 或 谓语 的 现象 ， 使 得 句子 中 主要 句子 成 分 的 确定 变 


得 非常 玉手 ， 而 如 果 主 要 句子 成 分 的 判定 出 现 错误 ， 人 整个 句子 的 分 析 
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(9) 汉语 的 基本 句 式 “* 主 一 谓 一 宾 ” 结 构 与 英语 相似 ， 都 是 
NP+VP+NP， 表 层 结构 的 分 析 并 不 困难 ， 但 是 ， 表 层 的 句法 结构 远 远 
不 能 满足 汉语 自然 语言 理解 的 需要 ， 词 与 词 以 及 词组 与 词组 之 间 的 句 
法 关系 和 语义 关系 才 是 问题 的 核心 。 而 汉语 基本 句 式 中 的 NP 与 VP 之 
间 的 句法 关系 和 语义 关系 是 错综复杂 的 ， 我 们 不 能 仅仅 根据 词组 类 型 
就 判定 词 与 词 之 间 的 句法 结构 ， 也 不 能 仅仅 根据 句法 结构 就 判定 词 与 
词 之 间 的 语义 关系 ， 往 往 还 要 根据 上 下 文 和 一 定 的 背景 知识 才能 做 出 
较为 准确 的 判断 。 


(10) 汉语 中 还 有 许多 自己 特有 的 常见 句 式 ， 其 中 的 语义 关系 不 
易 分 析 。 例 如 ，NP1+NP2+...+NPn+VP 这 样 的 结构 中 ， 各 个 NP 的 语义 
关系 必须 研究 它们 与 其 他 句 式 之 间 的 转换 过 程 才 能 说 清楚 。 又 如 ， 
NP+VP1+VP2+...+VPn 这 样 的 结构 ， 只 有 NP 一 个 单项 主语 时 ， 各 个 VP 
之 间 的 语义 关系 可 以 从 不 同 的 角度 来 分 析 ， 似 乎 都 言 之 成 理 ， 但 目前 
还 没有 统一 的 准则 ;NP 省 略 时 ， 出 现 主 语 暗 转 的 现象 ， 这 种 主语 暗 转 
和 省 略 的 句子 ， 在 汉语 里 十 分 普遍 ， 要 进行 推理 和 判断 才能 理解 ， 而 
推理 和 判断 叉 必 须根 据 生活 常识 、 上 下 文 语 境 以 及 整 段 文章 的 主题 才 
能 确定 。 


(11) 汉语 中 存在 着 大 量 的 歧义 现象 。 我 们 在 第 五 章 中 说 过 ， 层 
义 征 目 然 语言 的 计算 机 理解 面临 的 一 个 严重 问题 。 人 依靠 丰富 的 生活 
知识 和 对 母语 的 熟练 掌握 ， 在 日 常 语言 交际 中 能 排除 大 量 的 歧义 ， 误 
解 的 可 能 性 很 小 。 但 是 ， 计 算 机 不 可 能 把 一 个 人 的 全 部 知识 贮存 在 机 
絮 中 ， 而 一 个 小 型 的 目 然 语 言 理解 系统 所 能 容纳 的 词汇 、 句 法、 语义 
和 背景 知识 更 是 少数 ， 巡 到 有 上 收 义 的 句子 时 ， 误 解 或 不 解 的 可 能 性 必 


然 会 大 大 增加 。 这 种 情况 ， 在 汉语 中 尤其 严重 ， 因 此 ， 和 需要 分 析 汉 语 
中 靶 义 产生 的 各 种 原因 ， 据 以 建立 起 某 些 有 效 的 规则 ， 以 便 消 除 牙 
义 。 词 汇 部 分 的 玻 义 吏 是 一 词 多 义 ， 需 要 一 部 汉语 常用 词 用 法 词典 来 
解决 。 句 法 部 分 的 歧义 则 需要 依靠 上 下 文 分 析 和 背景 知识 ， 才 能 作出 
一 定 程度 的 解决 。 为 了 使 上 下 文 分 机 和 背景 知识 的 分 析 有 足够 的 形式 
上 的 依据 ， 首 先 要 详细 地 描述 汉语 中 各 种 歧义 结构 ， 为 此 ， 还 应 当 组 
织 人 力 编 写 一 部 描写 汉语 的 句法 规则 和 语义 规则 的 基础 语法 ， 在 这 样 
的 基础 语法 中 ， 要 以 产生 式 理论 为 指导 ， 详 细 说 明 各 种 结构 形式 的 出 
现 条 件 和 语义 用 法 的 使 用 条 件 。 


(12) 汉语 是 一 种 分 析 型 语言 ， 语 义 分 析 在 汉语 研究 中 起 着 举 足 
轻重 的 作用 。 一 个 句子 ， 只 要 把 词 的 意义 和 意义 之 间 的 关系 弄 清 楚 
了 ， 那 么 ， 整 个 句子 的 人 台 义 也 昭然 看 揭 了 “。 我 们 的 祖先 不 讲 主语 、 谓 
语 、 宾 语 和 名 词 、 动 词 、 形 容 词 这 些 印 欧 语言 的 语法 概念 ， 照 样 可 以 
看 文 草 ， 可 以 进行 语文 教学 ， 殊 是 因为 汉语 的 结构 特别 注重 语义 ， 特 
别 倾 向 于 使 用 王 力 教 授 所 说 的 “ 意 合 法 ”。 任何 一 个 完善 的 目 然 语 言 理 
解 系统 都 要 进行 句法 分 析 和 语义 分 析 ， 但 是 ， 句 法 分 析 和 语义 分 析 在 
目 然 语言 理解 中 所 占 的 比例 是 因 语言 而 异 的 。 根 据 我 们 人 研究 各 种 语言 
计算 机 处 理 的 经 验 ， 在 俄语 的 自然 语言 理解 系统 中 ， 句 法 分 析 比 语义 
分 析 的 比例 大 得 多 ， 在 英语 的 自然 语言 理解 系统 中 ， 句 法 分 析 的 比例 
也 比 语义 分 析 的 比例 要 大 一 些 ， 在 日 语 的 目 然 语言 理解 系统 中 ， 句 法 
分 析 与 语义 分 析 的 比例 差不多 ， 几 乎 是 一 半 对 一 半 ， 而 在 汉语 的 目 然 
语言 理解 系统 中 ， 语 义 分 析 的 比例 比 句法 分 析 的 比例 要 大 得 多 。 汉 语 
的 目 然 语言 理解 系统 ， 如 果 不 给 语义 分 析 以 足够 的 重视 ， 系 统 的 质量 
显然 是 不 会 好 的 。 但 是 ， 目 前 我 国 对 于 汉语 的 语义 研究 还 很 不 够 ， 汉 
语义 素 分 析 、 汉 语 语义 网 络 、 汉 语 框 染 网 络 的 研究 才刚 刚 起 步 ， 汉 语 
的 目 然 语 言 理解 研究 在 语义 学 方面 还 没有 十 分 成 熟 的 理论 和 方法 。 


(13) 汉语 的 自然 语言 理解 中 还 要 研究 上 句 和 下 句 的 关系 、 代 记 
的 所 指 和 照应 以 及 知识 背景 等 语 用 学 方面 的 问题 ， 对 于 这 些 问题 ， 在 
传统 的 汉语 语言 学 中 都 是 非常 薄弱 的 环节 ， 几 乎 没有 行 之 有 效 的 研究 
成 果 可 资 借鉴 。 


(14) 汉语 句子 中 ， 普 遍地 存在 着 “主题 化 ”的 现象 ， 在 语义 上 十 
受 事 、 工 具 、 方 式 、 目 的 、 处 所 、 时 间 的 词 ， 几 乎 都 可 以 提 到 句 首 作 
为 句子 的 主题 ， 这 样 ， 仅 只 根据 词 序 就 很 不 容易 判断 语言 成 分 的 句法 
功能 ， 给 汉语 句子 的 目 动 分 析 造 成 很 大 的 困难 。 


诸如 这 样 的 困难 不 胜 枚 举 ， 由 此 可 见 ， 汉 语 的 目 然 语言 理解 是 不 
可 能 一 践 而 束 的 ， 现 在 仅仅 是 逻 出 了 第 一 步 ， 需 要 进一步 全 究 的 问题 
还 很 多 ， 我 们 应 该 清醒 地 认识 到 这 些 问 题 ， 组 织 力量 进行 攻关 。 


目前 ， 自 然 语言 理解 的 研究 已 经 显示 出 令 人 鼓舞 的 应 用 前 景 ， 专 
家 系统 、 数 据 库 系 统 、 计 算 机 辅助 设计 系统 、 计 算 机 辅助 教学 系统 、 
办 公 室 目 动 化 系统 都 需要 用 目 然 语言 作为 人 机 接口 ， 具 有 篇 草 理 解 和 
篇 半生 成 能 力 的 目 然 语言 理解 系统 在 知识 工程 、 信 息 检 索 、 机 器 翻 
译 、 目 动 文 摘 、 电 子 排 版 、 语 言 材料 的 目 动 统计 等 领域 ， 也 有 者 广泛 
的 用 途 。 有 人 估计 ， 目 然 语言 处 理 的 软件 销售 额 ， 将 会 大 约 以 每 年 一 
倍 的 速度 飞快 增长 。 我 们 应 该 加 倍 努 力 ， 促 进 目 然 语言 理解 系统 的 实 
用 化 和 商品 化 。 


下 面 ， 我 们 来 讨论 自然 语言 理解 研究 中 的 两 个 新 的 领域 ， 自 动 问 
答 系 统 和 目 然 语言 人 机 接口 。 


第 三 节目 动 问答 系统 


HERA” (question answering， 简 称 QA) 讨论 如 何 从 大 规模 真 
实 的 联机 文本 中 对 于 指定 的 提问 找 出 正确 回答 的 方法 和 技术 ， 这 是 自 
然 语言 理解 的 一 个 新 的 发 展 趋向 。 


在 20 世 纪 初 年 ， 计 算 机 还 没有 出 现 的 时 候 ， 图 灵 (A. Turing) 就 
天 才 地 预见 到 ， 检 难 计 算 机 智能 高 低 的 最 好 办 法 是 让 计算 机 来 讲 英 语 
和 理解 英语 ， 他 提出 了 著名 的 “图 灵 实 验 ” 来 检验 计算 机 智能 的 高 低 。 
近年 来 迅速 发 展 着 的 自动 问答 系统 研究 是 图 灵 实 验 的 生动 实践 ， 反 映 
了 目 然 语言 处 理 技术 的 长 足 进步 。 


在 自动 问答 系统 中 ， 计 算 机 要 对 于 用 户 的 提问 给 出 一 套数 量 不 多 
的 准确 回答 ， 在 技术 上 ， 它 更 接近 于 信息 检索 (information 
retrieval) ， 而 与 传统 的 文献 检索 (document retrieval) 有 较 大 的 区 


别 。 


与 信息 抽取 (information extraction) 相 比 ， 目 动 问 答 系 统 要 回答 
的 提问 可 以 是 任何 提问 ， 而 信息 抽取 只 需要 抽取 事先 已 经 定义 好 的 事 
件 和 实体 。 在 开放 领域 的 和 目 动 问答 系统 中 ，， 使 用 有 限 状 态 技术 和 领 
域 知识 ， 把 基于 知识 的 提问 处 理 、 新 的 文本 标 引 形式 以 及 依赖 于 经 验 
方法 的 答案 抽取 技术 结合 起 来 ， 这 样 ， 融 把 信息 抽取 技术 大 大 地 回 前 
推进 了 一 步 。 


本 草 首先 介绍 目 动 问答 系统 的 类 别 和 目 动 问答 系统 的 体系 结构 ， 
接着 介绍 开放 领域 目 动 问答 系统 中 的 提问 处 理 以 及 关键 词 抽取 技术 ， 
并 讨论 开放 领域 目 动 问答 系统 中 的 答案 提取 方法 。 


1. 目 动 问答 系统 的 类 别 


目 动 问答 系统 给 某 个 提问 提供 简单 而 精确 回答 ， 与 信息 检索 任务 
和 与 信息 提取 任务 极为 不 同 。 目 前 的 信息 检索 系统 能 让 我 们 对 与 提问 
切 题 的 相关 文献 进行 定位 ， 把 从 文本 的 等 级 列表 中 抽取 答案 的 任务 留 
给 用 户 。 在 信息 检索 中 ， 相 关 文 本 的 识别 是 使 用 将 提问 与 文献 集 匹配 
的 方法 来 实现 的 ， 信 息 检 索 系 统 并 不 负责 回答 用 户 的 问题 。 信 息 抽 取 
与 信息 检索 不 同 ， 信 息 抽 取 系 统 抽 取 的 东西 是 用 户 感 兴趣 的 信息 ， 抽 
取 的 条 件 是 信息 已 经 存在 于 预先 规定 的 被 称 为 模板 的 目标 表现 形式 
中 。 从 总 体 上 ， 信 息 抽 取 系 统 在 一 个 与 提取 任务 相关 的 文献 集合 上 操 
作 。 信 息 抽取 系统 在 完成 抽取 的 任务 时 ， 可 以 成 功 地 组 拼 模 板 。 


尽管 在 信息 检索 系统 的 输出 和 信息 抽取 系统 的 输入 之 间 有 重合 现 
象 ， 但 是 把 信息 检索 技术 和 信息 抽取 技术 简单 地 组 合 起 来 ， 直 接应 用 
到 开放 领域 的 目 动 问 答 系 统 中 是 行 不 通 的 。 其 原因 在 于 : 第 一 ， 这 种 
解决 办 法 需要 建立 适用 于 所 有 可 能 领域 的 信息 抽取 规则 ， 第 二 ， 这 种 
解决 办 法 会 把 可 能 问 及 的 问题 的 类 型 仅仅 局 限 在 信息 抽取 模板 信息 的 
形式 范围 之 内 。 


不 过 ， 目 动 问 答 系统 可 以 使 用 信息 检索 的 方法 来 识别 那些 可 能 把 
包含 问题 的 答案 的 文献 ， 同 时 使 用 信息 抽取 技术 来 进行 命名 实体 的 辨 
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不 管 怎 么 说 ， 成 功 的 目 动 问答 系统 要 对 复杂 的 目 然 语言 处 理 技术 
进行 编码 ， 捕 获 提问 的 语义 ， 并 对 提问 和 候选 答案 进行 词汇 语义 的 合 
成 。 由 于 目 动 问答 系统 集中 地 使 用 了 大 量 的 句法 、 语 义 和 语 用 的 处 理 
方法 ， 因 此 ， 对 目 动 问 管 系统 技术 的 关注 势必 促进 目 然 语言 处 理 技术 
的 发 展 ， 将 目 然 语言 理解 推 到 人 研究 与 系统 开发 的 前 沿 。 


目 动 问 答 系统 技术 一 定 会 在 今后 的 数 年 内 在 信息 技术 中 发 挥 重 要 
的 作用 。 目 动 问答 系统 的 用 户 可 能 是 随意 的 提问 者 ， 他 们 只 是 问 一 问 
简单 的 具体 问题 ; 也 可 能 是 寻找 具体 产品 特性 和 价格 的 顾客 ， 也 可 能 
征 正 在 收集 市 场 、 财 经 或 商业 信息 的 调研 分 机 人 员 ; 还 可 能 是 查询 非 
常 具体 、 需 要 大 量 专门 技术 的 信息 的 专业 信息 分 析 人 员 。 所 以 ， 对 回 
答 提问 的 需求 是 很 广泛 的 ， 正 是 由 于 目 动 问答 系统 有 广泛 的 用 户 群 ， 
它 的 研究 具有 广阔 的 应 用 前 景 。 


根据 处 理 提 癌 与 答案 的 形式 ， 目 动 问答 系统 可 以 大 致 分 为 定型 的 
目 动 问答 系统 和 开放 领域 的 目 动 问 答 系统 两 种 。 


在 定型 的 目 动 问答 系统 中 ， 系 统 需要 回答 的 问题 或 者 是 天 于 特定 
事实 的 ， 或 者 是 具有 专业 性 的 。 定 型 的 目 动 问答 系统 对 一 个 新 提问 首 
先进 行 最 佳 严 配 ， 匹 配对 象 是 已 知 答案 的 预 置 问题 一 个 集合 。 大 有 合 
适 匹配 ， 束 提供 正确 答案 。 定 型 的 目 动 问答 系统 的 客户 群众 多 ， 客 户 
们 迫切 希望 依靠 定型 的 自动 问答 系统 ， 对 自己 特定 的 问题 找 出 正确 的 
答案 。 定 型 的 目 动 问答 系统 在 受 限 领 域内 表现 较 好 ， 因 为 在 这 些 领域 
中 ， 比 较 容 易 预 测 问题 的 答案 。 


定型 的 目 动 问 答 系 统 中 的 问题 大 致 可 以 分 为 两 类 : 一 类 是 关于 具 
体 事 实 的 问题 ， 一 类 十 专业 问题 。 


下 面 是 关于 具体 事实 的 问题 的 例子 : 


— —Who was the first American in space? 
(第 一 个 进入 太空 的 美国 人 是 谁 ? ) 
— — Where is capital airport? 


(首都 机 场 在 哪里 ? ) 


When did the Neanderthal man live? 
( 尼 安 德 特 人 生活 在 什么 时 候 ? ) 


系统 只 要 查询 到 有 关 的 事实 ， 就 可 以 轻而易举 地 回答 这 一 类 的 问 


下 面 是 关于 专业 问题 的 例子 : 


— What will the US' response be if Iran closes the Strait of 
Hormuz? 
(AAR BABY EEE OR AREER, SEEEPRERI RT ED AZ?) 

— What effects on the price of oil on the international market 
are likely to result from the terrorist attacks on Saudi facilities? 
(Rei 4) Fe a ES Bel Sir (Ae, OT FE Aw EBJBLEIC 
生 什么 影响 ? ) 


回答 这 一 类 的 问题 ， 需 要 根据 专业 知识 来 进行 推理 ， 需 要 从 各 种 
专业 文献 中 收集 证 据 雄 片 ， 然 后 将 这 些 证 据 碎 片 合并 ， 才 能 形成 最 后 


的 答案 。 


开放 领域 的 目 动 问答 系统 要 对 来 目 任 何 领域 的 提问 都 能 够 提供 答 
案 ， 为 了 达到 这 个 目的 ， 需 要 运用 名 法、 语义 、 语 用 等 目 然 语言 处 理 
手段 ， 从 大 量 联 机 文献 集合 中 搜寻 并 发 现 对 于 提问 的 答案 。 设 计 这 种 
开放 领域 的 目 动 问 答 系统 的 难点 在 于 系统 需要 处 理 的 提问 的 宽 沁 性 。 
提问 可 能 是 问 具 体 的 信息 的 ， 例 如 ， 在 文本 检索 会 议 (TREC) 评估 
时 所 提 的 问题 ， 提 问 也 有 可 能 问 及 复杂 事件 、 事 实 或 情况 。 


鉴于 开放 领域 的 目 动 问答 系统 具有 提问 的 宽泛 性 ， 仅 对 提问 类 型 
分 类 是 不 够 的 ， 因 为 对 同一 问题 ， 由 于 所 查询 文献 的 情况 不 同 ， 或 者 


由 于 文本 中 有 关 管 案 的 遗 词 造句 的 方法 不 同 ， 管 案 的 提取 有 难 有 易 。 
因此 ， 我 们 不 对 问题 处 理 技术 或 管 案 提 取 技 术 进 行 分 类 ， 而 是 对 整个 
目 动 问 答 系统 进行 分 类 ， 把 开放 领域 的 目 动 问答 系统 进一步 细 分 为 如 
下 5 类 : 


第 一 类 : 能 够 处 理事 实 问题 的 目 动 问答 系统 。 这 类 系统 从 一 个 或 
几 个 文献 的 集合 中 抽取 文本 片段 作为 回答 。 在 通 篆 的 情况 下 ， 系 统 只 
需要 逐 字 逐 句 地 进行 搜索 ， 在 文献 中 直接 找 出 问题 的 答案 。 


例如 : 


问 : Who is the author of the book THE IRON LADY: A Biography of 
Margaret Thatcher ? 


Ce CT: 撒 切 尔 夫人 传 》 的 作者 ? ) 


答 : THE IRON LADY: A Biography of Margaret Thatcher by Hugo 
Young. 


(《 铁 女子 ， 撒 切 尔 夫 人 传 》 的 作者 是 雨 果 - 杨 。) 


第 二 类 : 具有 人 简单 推理 机 制 的 目 动 问答 系统 。 这 类 系统 需要 在 不 
同 的 文本 片段 中 找 出 答案 ， 并 且 用 简单 的 推理 形式 ， 找 出 问题 与 这 些 
答案 之 间 的 关系 ， 从 而 把 它们 关联 起 来 。 在 这 种 形式 下 ， 答 案 的 发 现 
需要 使 用 更 加 精细 的 本 体 概 念 知 识 或 者 更 加 精细 的 语 用 知识 ， 而 答案 
的 抽取 则 需要 在 这 些 知 识 的 基础 上 进行 推理 。 由 于 简单 释义 的 不 足 ， 
这 样 的 推理 通 利 必须 使 用 世界 知识 和 普通 的 浓 识 。 例 如 ， 在 下 面 的 问 
答 中 ， 束 使 用 了 “ 哆 有 毒 饮 品 是 死亡 的 一 个 原因 ”这 样 的 假设 。 


i=]: How did Socrates die? 


( 苏 格 拉 底 是 怎么 死 的 ? ) 


7*. Similarly, it was to refute the principle of retaliation that Socrates, 
who was sentenced to death for impiety and the corruption of the city's 
youth, chose to drink the poisonous hemlock, the state's method of 
inflicting death, rather than accepting the escape from prison that his friends 


had prepared. 


(KMAR, CES TARRE AER, WA Ba RBA REPETI 
^E AP EAA A TUBE TE, UE TET, he 
TT SCA A — R7; 3X, TU oe ST A CET AY A 
划 。) 


在 词 网 (WordNet1.6) 中 ， 名 词 poison (=) 的 第 一 个 意思 解释 

为 any substance that causes injury or illness or death of a living organism 

(“能 对 生物 体 造 成 伤害 、 疾 病 或 死亡 的 任何 物质 *) ， 根 据 这 样 的 因 

果 链 进行 推理 ， 就 为 poisonous hemlock (JT) 可 能 是 苏 格 拉 底 死 亡 
的 原因 提供 了 证 据 。 


第 三 类 : 能 够 从 不 同文 献 中 融合 出 管 案 的 目 动 问答 系统 。 这 种 系 
统 的 特征 是 ， 它 们 能 够 提取 散落 在 不 同 的 铬 干 个 文献 中 的 局 部 的 信 
思 ， 人 然后 形成 一 个 融合 的 答案 。 这 样 的 回答 格式 决定 痢 这 些 目 动 问答 
系统 的 多 层 复 杂 性 。 


例如 : 


ia]: Name three countries that banned beef imports from Britain in the 
year 1990? 


(列举 出 1990 年 禁止 从 英国 进口 牛肉 的 3 个 国家 的 名 字 ? ) 
“=; |France, West Germany, Luxembourg, Belgium | 


CRAE, AE, FRE, EAR] ) 


这 种 融合 的 开放 领域 目 动 问答 系统 需要 具有 更 高 级 的 语义 处 理 能 
力 和 名 称 别 名 的 识别 能 力 。 例 如 ， 在 不 同 的 若干 个 文献 中 ， 可 能 会 使 
用 Britain 和 UK 等 不 同 的 名 称 来 称呼 “和 瑞 国 >"， 系 统 要 能 够 识别 出 Britain 
和 UK 是 同一 个 国家 ， 才 有 可 能 在 若干 个 不 同 的 文献 中 进行 知识 的 融 
合 ， 把 Britain 和 UK 融合 在 一 起 。 


第 四 类 : 可 以 进行 类 比 推理 的 目 动 问答 系统 。 这 类 目 动 问答 系统 
的 特征 是 ， 它 们 具有 类 比 推理 的 能 力 。 在 这 种 目 动 问答 系统 中 ， 问 题 
的 答案 不 会 在 任何 文献 中 明确 表述 出 来 ， 而 是 需要 将 不 同 的 答案 进行 
类 比 推理 ， 预 测 它 们 之 间 的 相似 点 和 不 同 点 。 在 类 比 推理 时 ， 系 统 需 
要 将 问题 分 解 成 提取 证 据 碎片 的 天干 个 小 问题 ， 然 后 使 用 类 比 的 方式 
进行 推理 来 构造 对 于 问题 的 答案 。 


例如 : 

问 : Is the Fed going to raise interests at their next meeting? 
(Fed 打 算 在 他 们 的 下 一 次 会 议 上 提高 利息 吗 ? ) 

i]: Is the US out of recession? 
(KEH T EDEN RIS?) 


i]: Is the airline industry in trouble? 


(航空 工业 出 现 了 什么 麻烦 ? ) 


要 回答 上 述 的 问题 需要 从 各 种 文本 中 提取 证 据 的 碎片 ， 然 后 进行 
类 比 推理 ， 构 造 出 问题 的 答案 。 


第 五 类 : 交互 式 目 动 问答 系统 。 这 类 目 动 问答 系统 的 特征 是 能 够 
在 前 期 与 用 户 互动 形成 的 语 境 的 基础 上 提问 题 ， 而 不 是 孤 立地 提问 ， 
人 与 计算 机 之 间 可 以 交互 。 


例如 : 


语 境 中 的 提问 1: Which museum in Florence was damaged by a major 


bomb? 
(佛罗伦萨 的 哪 一 个 博物 馆 被 炸弹 破坏 了 ? ) 


=: On June 20, the Uffizi gallery reopened its doors after the 1993 
bombing. 


(1993 年 爆炸 之 后 ， 在 6 月 20 日 ， 乌 菲 齐 美术 馆 又 重新 开门 了 。) 
语 境 中 的 提问 2: On what day did is happen? 
(爆炸 是 在 那 一 天 发 生 的 ? ) 
答 : (Thursday) (May 27 1993) 
(星期 四 ) | (1993555 H27H) 


语 境 中 的 提问 3: Which galleries were involved? 


(包括 哪 一 些 画 廊 呢 ? ) 

“=: One of the two main wings. 
(两 个 主要 侧面 画廊 当中 的 一 个 。) 

语 境 中 的 提问 4: How many people were killed? 
( 死 了 多 少 人 呢 ? ) 

答 : Five people were killed in the explosion. 
(在 爆炸 中 死 了 5 个 人 。) 


在 回答 这 些 问 题 的 时 候 ， 计 算 机 需要 在 前 面 已 经 回答 的 问题 的 基 
础 上 ， 检 查 提 问 前 后 的 语 境 ， 才 有 可 能 做 出 回答 。 


2. 目 动 问答 系统 的 结构 


一 个 目 动 问 答 系 统 通常 由 三 个 模块 组 成 : 一 个 是 提问 处 理 模块 


L 
( Question-Processing ) ; 一 个 是 文献 处 理 模 块 ( Document- 
Processing) ; 一 个 是 答案 的 提取 和 构造 模块 (Answer Extraction and 


Formulation) 。 

在 提问 处 理 模 块 中 包含 着 目 动 问答 系统 的 很 多 技术 ， 这 些 技术 能 
够 对 提问 加 以 进一步 的 说 明 ， 以 便 在 所 采集 到 的 文献 中 找 出 对 于 有 关 
问题 的 回答 。 


在 目 动 问 答 系统 中 ， 目 然 语 言 的 提问 不 能 使 用 信息 检索 中 的 关键 
词 和 算 子 来 表示 ， 而 是 使 用 人 类 所 能 理解 的 、 并 且 能 够 由 目 动 问答 系 
统 处 理 的 一 父 固 有 语义 来 表示 。 


这 套 固 有 语义 也 就 是 回答 应 当归 属 的 语义 类 别 。 例 如 ， 当 问 Who 
is best known for breaking the color line in baseball? 《在 打破 职业 棒球 的 
肤色 界限 方面 谁 最 有 名 ? ) ， 预 期 的 答案 的 语义 类 型 
是 “人” (Person) ， 以 姓名 的 形式 来 表征 ， 例 如 ， 杰 克 : 罗 宾 了 让 (Jackie 


Robinson) 。 


开放 领域 问题 的 相关 段落 检索 是 建立 在 提问 关键 词 的 基础 之 上 
的 。 我 们 使 用 经 验 的 方法 来 提取 提问 关键 词 ， 从 提问 的 语义 形式 中 提 
取 实 词 ， 并 优先 考虑 (a) 引用 表达 ; (b) 命名 实体 ， (0 复合 名 
词 。 可 能 的 关键 词 包 仿 所 有 的 名 词 和 它们 的 形容 词性 修饰 语 ， 还 有 所 
问 中 的 主要 动词 。 


目 然 语言 文本 中 的 关键 词 会 出 现形 态 变 化 、 同 义 表达 、 语 义 变 换 
等 变 体 形式 ， 在 目 动 问答 系统 中 ， 有 必要 对 这 些 天 键 词 进行 必要 的 变 
换 。 


我 们 可 以 从 语言 学 的 角度 把 关键 词 的 变换 分 为 如 下 二 类 : 


(1) 形态 变换 。 在 自动 问答 系统 的 提问 表达 式 中 ， 可 以 列举 出 关 
键 词 有 关 的 各 种 形态 变化 的 形式 。 


例如 ， 对 于 问题 “who invented the paper clip?”〈“ 谁 发 明了 回 形 
针 ? ") 而 言 ， 预 期 的 回答 类 型 是 < 人 ” (Person) ， 而 且 这 个 “人 ”是 动 
词 invented (“发 明了 ”) 的 主语 ， 即 词汇 上 名 词 化 了 的 inventor (“发 明 
A?) 。 另 外 ， 由 于 在 文献 中 搜索 时 不 仅 限 于 搜索 关键 词 的 词 干 形式 ， 


还 要 搜索 该 动词 的 所 有 届 折 变化 形式 。 这 样 ， 问 题 束 可 以 使 用 如 下 的 
提问 表达 式 来 表示 : 


QUERY: [| paper AND clip AND (invented OR inventor OR 


invent OR invents) | 


EFP, ANDRI”, ORRI”, invented 的 形态 变换 形式 还 


inventor, invent, invents ° 


(2) 词汇 变换 。 词 网 (WordNet) 对 于 大 量 的 很 容易 挖掘 的 语义 
言 息 都 进行 了 了 编码， 这样， 我 们 就 可 以 根据 词 网 对 关键 词 进 行 词汇 变 
换 ， 来 检索 关键 词 的 同义词 和 其 它 语义 相关 项 。 这 种 词汇 变换 提高 
答案 的 召回 率 。 例 如 ， 对 于 问题 “Who killed Martin Luther King?” (W 
杀 了 马丁 .路 德 . 金 ? ”) ， 在 搜索 时 除了 killer (“杀人 者 ”) 之 外 ， 还 搜 
索 killer 的 同义词 assassin (“RIA”) ， 从 而 提高 自动 问答 系统 的 召回 
率 。 同 样 ， 对 于 问题 “How far is the moon?”(“ 月 亮 离 我 们 有 多 
we? ") ， 由 于 副词 far 在 词 网 (WordNet) 中 被 编码 为 distance (距离 ) 
的 属性 特征 ， 如 宁 我 们 把 distance 这 个 名 词 添 加 到 检索 关键 词 中 ， 也 可 
以 找到 正确 回答 。 


(3) 语义 变换 。 词 网 《WordNet) 中 还 记录 了 单词 的 上 下 位 关系 
以 及 搭配 ， 在 自动 问答 系统 之 中 ， 我 们 可 以 把 单词 的 上 下 位 关系 或 搭 
配 定 义 为 天 键 词 的 语义 变换 ， 这 样 ， 也 可 以 提高 自动 问答 系统 的 召回 
率 。 例 如 ， 对 于 问题 “Where do lobsters like to live?“ (龙虾 喜欢 生活 在 
哪里 ? ) 。 由 于 在 词 网 中 ， 动 词 like (喜欢 ) 是 动词 prefer 的 上 位 词 ， 
它 的 定义 是 like better (更 加 喜欢 ) ， 所 以 ， 提 问 式 可 以 写 为 : 


QUERY: [lobsters AND (like OR prefer) AND live] 


在 文献 处 理 模 块 中 ， 为 了 处 理 大 范围 的 提问 ， 开 放 领 域 的 目 动 问 
答 系 统 需要 决定 ， 它 要 寻找 什么 样 的 信息 ， 或 者 要 村 找 什 么 样 的 预期 
的 回答 类 型 ， 并 且 还 要 决定 ， 它 到 哪些 文献 中 去 搜寻 这 样 的 回答 。 


由 于 答案 是 靠 文 献 中 的 文本 碎片 来 呈现 的 ， 所 以 ， 这 样 的 答案 必 
定 应 当 包 含 在 能 够 补 大 多 数 提问 概念 辨识 的 文本 碎片 之 中 。 因 此 ， 可 
能 找到 最 终 答 案 的 文本 碎片 应 当 包 含 最 具 代 表 性 的 问题 的 概念 ， 并 且 
包含 与 预期 的 回答 类 别 相同 的 文本 概念 。 


现 有 的 检索 技术 还 不 能 很 好 地 模拟 语义 知识 ， 因 此 ， 大 多 数目 动 
问答 系统 只 是 将 这 样 的 搜索 分 解 成 基于 问题 关键 词 的 检索 以 及 文献 的 
过 沽 机 制 两 个 部 分 ， 使 得 在 文献 中 只 保留 那些 预期 的 答案 类 型 。 


在 答案 的 提取 和 构造 模块 中 ， 要 确定 答案 的 类 型 ， 答 案 的 语义 格 
式 应 该 直接 与 提问 的 主干 相关 联 ， 并 且 在 提问 的 语义 形式 中 具有 最 高 
APERTE S 


答案 类 型 的 脱 机 分 类 可 以 依靠 大 型 的 词汇 语义 资源 (例如 ， 词 
网 ) 来 建立 。 词 网 (WordNet1.6) 的 数据 库 中 包含 100 000 多 个 英语 的 
名 词 、 动 词 、 形 容 词 和 副词 ， 这 些 词 使 用 “同义词 集 ”(SYNSET) 的 
方式 组 织 起 来 。 在 对 答案 进行 分 类 时 ， 我 们 要 设法 建立 起 问答 系统 
的 答案 类 型 与 词 网 中 的 同义词 集 之 间 的 关联 。 


答案 类 型 分 类 的 过 程 可 以 分 三 步 走 : 


第 一 步 : 对 答案 中 的 名 词 或 动词 的 每 一 个 语义 类 别 ， 人 工 选择 出 
它们 最 具 代 表 性 的 概念 结 点 ， 然 后 把 这 些 概念 结 点 加 到 答案 类 型 分 类 
(Answer Type Taxonomy) 中 。 


J^ 


第 
在 命名 


二 步 : 由 于 预期 的 答案 类 型 通 前 是 命名 实体 ， 因 此 ， 我 们 需要 
实体 范畴 和 答案 类 型 范畴 之 间 建 立 多 对 多 的 映 册 。 如 图 15.2 所 


| 


N 


答案 类 型 学 畴 命名 实体 范畴 
Person person 
Money se money 

Speed price 
Duration quantity 
Amount 


> number 
图 15.2 ”答案 类 型 范畴 和 命名 实体 范畴 之 间 的 多 对 多 映射 


从 图 15.2 中 可 以 看 出 ， 答 案 类 型 范畴 的 Speed, Duration 和 Amount 三 
个 范畴 映射 到 命名 实体 范畴 的 quantity， 形 成 3 对 1 的 映射 ;而 答案 类 型 
范畴 的 一 个 范畴 Money 映 射 到 命名 实体 范畴 的 money 和 Price 两 个 范 
畴 ， 形 成 1 对 2 的 映 映 。 可 见 ， 答 案 类 型 范畴 和 命名 实体 苑 畴 之 间 的 映 
射 是 多 对 多 的 。 


第 三 步 : 把 答案 类 型 分 类 体系 (Answer Type Taxonomy) 中 顶端 
的 每 一 个 叶子 结 点 ， 手 工 链接 到 词 网 的 一 个 或 者 多 个 下 属 层 次 的 结 点 
b; 这样 ， 束 可 以 把 提问 中 的 命名 实体 范畴 与 答案 中 的 答案 类 型 范畴 
联系 起 来 ， 构 造 出 相关 的 答案 来 。 


目 动 问答 系统 的 研究 近年 来 取得 突飞猛进 的 成 绩 。 


2011 年 2 月 14 日 至 16 日 ， 美 国 国 际 商 用 机 器 公司 (IBM) 研制 的 超 
级 计算 机 “ 沃 森 ” (Watson) 与 两 名 人 类 智力 竞赛 高 手 布 拉 德 (Brad) 
ALE STH (Ken) 在 美国 著名 的 智力 竞 答 电视 节目 《危险 边缘 ! 》 

(Jeopardy!) 中 进行 竞 答 比 赛 。 人 类 选手 布 拉 德 和 肯 . 和 詹 宁 斯 兽 经 多 次 


最 得 《危险 边缘 ! 》 的 苋 答 冠 军 。 然 而 ， 在 这 次 部 答 比 赛 中 ， 超 级 计 
算 机 * 沃 森 ? 却 以 绝对 优势 获得 冠军 ， 战 胜 了 人 类 选手 ， 这 是 计算 机 目 
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图 15.3 《危险 边缘 ! 》: 人 机 竞 答 比赛 


2 月 14 日 ,，“ 沃 森 ” 与 布 拉 德 在 首 日 播 出 的 比赛 结束 时 打 成 了 平手 ， 
领先 于 肯 : 詹 了 斯 。 


2 月 15 日 (第 二 天 ) 播 出 的 比赛 ， 在 30 个 问题 中 ,“ 沃 森 ” 答 对 24 

， 肯 : 詹 宁 斯 和 布 拉 德 分 别 答对 3 个 和 2 个 。“ 沃 森 ”" 和 人 类 选手 都 未 管 

Wim ANTE 19875 RDU — Prim o VR BEA E] E SERIE — ft 
HE ° 


2 月 16 日 (第 三 天 ) 竞赛 揭晓 ， 在 这 场 竞 答 比 赛 中 ,，“ 沃 森 ” 以 绝对 
优势 战胜 了 人 类 选手 。 


我 们 把 部 分 问题 分 类 列举 如 下 ， 读 者 从 中 可 以 了 解 到 这 次 人 机 竞 
答 比 赛 的 水 平 。 


1. 有 关 欧 盟 的 问题 (EU, The 


European Union ) 


[a]: Each year the EU selects capitals of culture: one of the 2010 
cities was this Turkish*meeting place of cultures”(〈 每 年 欧盟 都 要 选 出 文 
化 之 都 。2010 年 被 选中 的 城市 之 一 束 是 这 个 不 同 的 文化 在 这 里 相遇 的 
土耳其 城市 。 这 是 哪 一 个 城市 ? ) 


管 : Istanbul (伊斯坦布尔 ) ° 


[a]: The Schengen agreement removes any controls at these between 
most EU neighbors 《申根 协议 消除 了 大 部 分 欧盟 国家 之 间 的 关于 什么 
东西 的 控制 ? ) 


管 : National borders (国家 边界 ) ° 


fa]: A controversial EU subsidy program is called CAP, short 
for*common"this"policy" (欧盟 一 个 有 争议 的 补贴 叫做 CAP， 它 是 “ 共 
有 ”什么 “政策 "的 缩写 ? ) 


a. agricultural (农业 ) 。 


|H]: Elected every 5 years, it has 736 members from 7 parties (每 5 年 
选举 一 次 ， 它 有 来 目 7 个 组 织 的 736 名 成 员 。 它 是 什么 ? ) 


答 : parliament (议会 ) 。 


间 : As of 2010, Croatia & Macedonia are candidates but this is the 
only former Yugoslav republic in the EU (#2010, A HELA 5 EB 
只 是 欧盟 申请 国 ， 而 这 个 国家 是 欧盟 中 唯一 的 前 南斯拉夫 共和 国 ， 它 
是 哪 一 个 国家 ? ) 


管 : Slovenia (Hrs sce.) 


2. 有 关 演 员 和 导演 的 问题 (Actors 


who direct) 


[a]: “Rocky II”, “Rocky IIIP"&*Rocky IV” ( (44 FAAI) 
《拳击 手 洛 奇 II》 和 《拳击 手 洛 奇 IV》 的 演员 是 谁 ? ) 


Z: Sylvester Stallone ( 西 尔 维 斯 特 :史泰龙 ) 


WHH: 西 尔 维 斯 符 : 史 泰 龙 饰演 了 区 击 手 洛 奇 ， 分 别 出 品 于 1979、 
1982 ` 1985 ° 


[a]: “Million Dollar Baby”&“Unforgiven”(《 百 万 宝贝 》 和 《不 
可 馈 恕 》 的 演员 是 谁 ?”) 


管 : Clint Eastwood ( 克 林 特 - 伊 斯 特 伍德 ) 


说 明 :， 克 林 特 : 伊 斯 特 伍德 在 《 百 万 宝贝 》 中 饰演 了 年 纪 老 迈 的 净 
击 教练 法 兰 基 : 邓 恩 ， 在 《不 可 狂想 》 中 饰演 了 重 操 旧 业 的 枪手 威廉 : 亡 
尼 。 


fa]: “The Pledge"&*Into the Wild” ( (58 558289) Ail Oi SPA 
存 》 的 导演 是 谁 ? ) 


管 : Sean Penn (Fy A) 


说 明 : 《起 死 追 缉 令 》 和 《薄野 生存 》 是 西 恩 - 潘 最 成 功 的 导演 作 


[a]: “The Great Debaters”《〈《 激 辩 风 云 》 的 主演 是 谁 ? ) 
答 : Denzel Washington ( 丹 泽 尔 :华盛顿 ) 


说 明 ， 丹 泽 尔 .华盛顿 同时 扮演 了 一 所 全 黑人 学 校 一 威 利 大 学 中 
一 位 名 叫 迈 尔 文 - 托 尔 森 的 受 人 爱戴 的 教授 。 


[A]: “A Bronx Tale”(《 布 朗 克 斯 的 故事 》 的 导演 是 谁 ?”) 


Æ. Robert DeNiro (罗伯特 : 德 尼 罗 ) 


说 明 : 《 布 表 克 斯 的 故事 》 是 罗伯特 - 德 尼 罗 执 导 的 处 女 作 ， 片 中 
他 同时 扮演 了 类 籍 意大利 人 一 一 公交 车 司机 罗兰 效 ' 阿 内 罗 。 


3. 有 关 方 言 的 问题 (DIALING FOR 
DIALECTS ) 


[a]: Sprechen sie Plattdeutsch? If you do, you speak the low variety 
of this language. (你 会 讲 低地 德语 吗 ? 如 果 你 会 的 话 ， 那 么 你 讲 的 是 
这 种 语言 的 低地 方言 变 体 。) 


Æ. German (德语 ) © 


说 明 : 这 道 题 是 用 德语 发 问 的 : "Sprechen sie Plattdeutsch?" ° 7X 
和 森 居 然 懂 得 德语 。 通 过 “低地 德语 ” (Plattdeutsch) 这 个 单词 ， 沃 森 确 
定 了 这 道 题 要 回答 的 语言 是 德语 。 


|H]: Dialects of this language include Wu, Yue & Hakka (这 种 语言 
H7; E SiR ^ BBM BATE o iUe E RE HT ) 


4. Chinese (汉语 ) 。 


|R]: Vedic, dating back at least 4,000 years, is the earliest dialect of 
this classical language of India. (可 以 追溯 到 至 少 4 0004F BT, PAPE TR E 
印度 的 一 种 古典 语言 的 最 早 的 方言 。 这 种 古典 语言 是 什么 ? ) 


管 : Sanskrit (BiB) 。 


fa]: While Maltese borrows many words from Italian, it developed 
from a dialect of this Semitic language. (RE B3 H- hie MAAS n fe 
用 大 量 的 单词 ， 但 是 它 是 从 内 米 特 语族 的 一 个 方言 发 展 而 来 的 。 这 种 
Fi BETA? ) 


Z: Arabic (阿拉 伯 语 ) 。 


|H]: Aeolic, spoken in ancient times, was a dialect of this. 〈 在 古 时 候 
讲 的 依 奥 利 亚 语 是 这 种 语言 的 一 种 方言 。 这 种 语言 是 什么 ? ) 


管 : Ancient Greek (上 古 希 腊 语 ) œ 


4. 关于 突 发 新 闻 的 问题 (BREAKING 
NEWS) 


问 : Before this hotel mogul's elbow broke through it, a Picasso he 
owned was worth $139 million; after, $85 million (MB AZ] JE K =F AY AG H8 
肘 戳 坏 了 他 目 己 的 毕加索 的 名 画 ， 之 前 这 副 画 值 1.39 亿 美元 ， 之 后 只 
值 8 500 万 美元 了 ? ) 


答 : Steve Wynn (HEF KA) e 


说 明 : 史 提 分 :永利 十 酒店 大 至 ， 有 “ 拉 斯 维 加 斯 之 父 ” 之 称 。 


[a]: It was 103 degrees in July 2010 & Con Ed's command center in 
this N.Y. borough showed 12,963 megawatts consumed at 1 time. (201044 
7 月 的 纽约 气温 高 达 103 华 氏 度 ， 即 39.4 摄 氏 度 ， 联 合 爱 迪 
约 这 个 区 的 指挥 中 心 显 示 耗 电量 达到 了 12 963 百 万 瓦特 。 这 是 哪 一 个 
区 ? ) 


答 : Manhattan (SISX) ° 


[a]: Senator Obama attended the 2006 groundbreaking for this man's 
memorial, 1/2 mile from Lincoln's. (奥巴马 议员 出 席 了 AR 国家 
纪念 碑 的 英 基 仪式 ， 这 个 纪念 碑 离 林肯 纪念 党 只 有 半 英 里 ， 这 是 谁 的 
纪念 碑 ? ) 


管 : Martin Luther King (HT KEE) ° 


[a]: Gambler Charles Wells is believed to have inspired the song“The 
Man Who’ did this“At Monte Carlo”，〈 赌 徒 查理 斯 : 韦 尔 斯 被 认为 是 启发 
了 这 首 歌 曲 灵 感 的 人 : 歌曲 的 名 字 叫 做 《这 家 伙 在 蒙特 卡 洛 did this) , 
歌曲 名 字 中 的 did this 究 竟 是 指 什么 行为 呢 ? ) 


Æ. Broke the Bank (BJART) 


说 明 : GCE RT TT ELIA ARR Ut CBOE, € BAUD EBT AS 7K 
HAR EME, Mx Sate ABO, BRT MAEM T ZI, 
191 27 BR E BL BJ Br rH LUTTE ^ Heel] PAE” ^ DUX 
伙 在 索 特 卡 阁 ? 都 是 比较 好 的 线索 。 敖 森 正 确 回答 了 这 题 。 事 实 上 ， 赌 
和 什 查理 斯 - 书 尔 斯 确实 在 蒙特 卡 阁 阅 进 了 银行 。 而 《这 家 伙 在 绽 符 卡 洛 
奖 入 银行 》 古 19 世 纪 在 英国 流行 的 一 首 歌 曲 。 


[a]: Nearly 10 million YouTubers saw Dave Carroll's clip called 
this“friendly skies"airline*breaks guitars”. (接近 一 千 万 YouTube 的 观众 
点 击 了 戴 夫 : 卡 罗 的 视频 刻 段 一 一 “友善 的 天 空 ?航空 公司 “ 摔 坏 了 寺 
他 ”， 这 是 哪 一 个 航空 公司 ? ) 


答 : United Airlines ( 美 联 航 ) 


说 明 : 美 联 航 控 坏 吉他 的 事件 曾 说 新 闻 广 泛 报道 。“ 友 赤 的 天 
空 " 是 美 联 航 多 年 的 口号 。 


5. 关于 小 钱 的 问题 (ONE BUCK OR 
LESS) 


fa]: On December 8, 2008 this national newspaper raised its 
newsstand price by 25 cents to $1. (在 2008 年 12 月 8 号 ， 这 份 国家 报纸 将 
它 在 报 摊 的 价钱 从 25 美 分 提高 到 1 美金 。 这 是 哪 一 份 全 国 性 报纸 ? ) 


答 : “USA Today”(《 今 日 美国 》) 。 


[a]: The USPS cost for mailing this, a minimum of 3 1/2 X 5 inches, 
is 28 cents; Wish you were here! (USPS 寄 送 这 个 东西 的 价钱 ， 最 小 的 是 
3.5 5 英寸 ， 价 格 是 28 美 分 ; 希望 你 们 已 经 知道 答案 了 ! 这 是 什么 东西 
We? ) 


答 : apost card (明信片 ) 。 


[a]: In 2002 Eminem signed this rapper to a 7-figure deal, obviously 
worth a lot more than his name implies. (在 2002 年 ， 著 名 的 说 唱歌 手 埃 
米 纳 姆 帮 这 位 说 唱歌 手 签 下 了 一 个 7 位 数 的 合同 ， 合 同 的 价值 显然 比 他 
的 名 字 暗 示 的 价值 更 多 。 这 位 歌手 的 名 字 叫 做 什么 ? ) 


管 : Five Cents (50 美 分 ) 。 


说 明 : Five Cents 是 美国 的 一 个 说 唱歌 手 的 名 字 ， 他 的 本 名 柯 蒂 斯 
- 集 姆 士 . 术 区 进 。 这 个 题目 很 难 ， 因 为 很 少 有 人 能 够 想到 Five Cents/& 
然 是 一 个 人 名 ， 命 名 实体 的 识别 确实 不 容易 。 


[a]: 99 cents got me a 4-pack of YTTERLIG coasters from this 
Swedish chain. (99 美 分 可 以 从 这 家 瑞典 的 连锁 店 买 到 一 包 4 个 的 
YTTERLIG 的 杯 垫 。 这 家 连锁 店 叫 什么? ) 


Æ. IKEA (HR) e 


fa]: A 15-ounce V05 Moisture Milks conditioner from this 
manufacturer averages a buck online. (—#M15# BI WK A XA 8 38 PY 
V05 牛 奶 保湿 护 发 素 在 网 上 的 平均 价格 是 1 美金 。 这 是 哪 一 家 制造 
R? ) 


管 : Alberto (阿尔 伯 特 ) 。 


6. 关于 非 小 说 类 文学 作品 的 问题 
(NONFICTION) 


[a]: In 2010 this former first lady published the memoir“Spoken from 
the Heart”. 《在 2010 年 ， 这 位 前 第 一 夫人 发 表 了 回忆 录 《肺腑 之 
言 》， 她 是 谁 ? ) 


答 : Laura Bush 〈 劳 拉 . 布 什 ] 。 


问 : This book by Michael Lewis subtitled“Evolution of a 
Game” focused on left tackle prodigy Michael Oher (这 本 出 自 迈 克 : 刘 易 
斯 的 副标题 为 《比赛 进程 》 的 书 是 天 于 左边 锋 天 才 和 迈克 ' 奥 赫 的 。 这 本 
书 的 名 字 是 什么 ? ) 


答 : “The Blind Side”(《 弱 点 》) © 


[a]: The New Yorker's 1959 review of this said in its brevity & clarity 
it is“unlike most such manuals, a book, as well as a tool". (在 《纽约 客 》 


的 1959 回 顾 中 谈 到 了 这 部 作品 的 简 涪 和 清晰 方面 ， 认 为 ， 它 不 像 大 多 


数 这 类 的 手册 ， 而 可 以 看 作 是 一 本 工具 书 。 这 部 作品 的 名 字 叫 什 
Ae) 


答 : “The Elements of Style”(《 文 体 的 要 素 》) 


[a]: Dave Eggers not-so-modestly titled his memoir“A Heartbreaking 
Work of"this. \ 大 卫 : 艾 格 斯 不 那么 谦虚 地 把 他 的 回忆 录 起 名 为 什么 
的 “伤心 制作 >? ) 


#: Staggering Genius 〈 怪 才 ) 


fa]: HBO's miniseries“John Adams"was based on this author's 
Pulitzer Prize-winning biography (HBO 的 迷你 剧 《 约 翰 : 亚 当 斯 》 是 根 
据 这 个 作家 的 获 普 利 策 奖 传记 改编 的 。 这 个 作家 是 谁 ? ) 


Æ: David McCullough 〈 大 卫 . 麦 考 勒 ) 


7. 和 法 律 有 关 的 问题 ， 答 案 中 要 包 合 
FAE” (Legal“E”s) 


[a]: In English law, it's a title above a gentleman & below a knight; in 
the U.S., it's usually added to the name of an attorney. (在 英国 法 律 中 ， 
TK Ae Ee PE E SE PA; FERRE, ERE 
律师 名 字 的 前 面 。 这 个 单词 是 什么 ? ) 


Æ: English word“esquire” (英文 单词 esquire) 


说 明 : 字典 中 对 esquire 的 解释 是 :“ 放 在 律师 名 字 前 面 的 称谓 ”。 


[a]: One definition of this is entering a private place with the intent of 
listening secretly to private conversations. (关于 该 单词 的 定义 之 一 
是 :“ 进 入 一 个 私人 领地 企图 镭 听 私人 谈话 ”， 这 个 单词 是 什么 ? ) 


答 : English word eavesdropping (英文 单词 eavesdropping | ffi 
W] ) e 


[a]: This person is appointed by a testator to carry out the directions 
& requests in his will. \ 这 个 人 受 立 遗嘱 人 委托 去 执行 遗 路 中 的 要 求 事 
项 。 这 个 人 在 法 律 上 叫 什么 ? ) 


ZÆ. executor (执行 人 ) 。 


问 : This 2-word phrase means the power to take private property for 
public use; it's ok, as long as there is just compensation. (这 是 由 两 个 单词 
组 成 的 英语 短语 ， 指 的 是 一 种 为 了 公共 用 途 而 取得 私人 物品 ， 并 给 
适当 补偿 的 法 律 权利 。 这 个 短语 是 什么 ? ) 


答 : eminent domain (征收 ) 。 


WHH: 在 Wikipedia 上 关于 eminent domain 的 解释 是 : “征收 (XEK 
土地 征用 权 ) 系 指 政府 为 促进 物品 利用 、 增 进 公 共和 利益， 基于 政府 公 
权力 之 作用 ， 依 法 定 程 序 ， 取 得 特定 私有 物品 ， 并 给 予 当 事 者 相当 补 
偿 之 行为 。” 


[a]: This clause in a union contract says that wages will rise or fall 
depending on a standard such as cost of living. (在 劳工 合同 中 的 有 一 个 


条 球 说 :工资 将 随 着 例如 生活 成 本 这 一 标准 而 上 下 浮动 。 这 个 条 球 叫 
做 什么 ? ) 


4. escalator (伸缩 条 款 ) 。 


说 明 : 英语 词典 中 说 : “伸缩 条 款 (escalator clause) 是 指 劳 资 协 


议 中 有 关 随 生活 费用 或 生活 指数 而 自动 调整 工资 的 条 款 。” 


8. 关于 穿 什么 的 问题 (WHAT TO 
WEAR) 


[a]: This plain-weave, sheer fabric made with tightly twisted yarn is 
also used to describe a pie or cake. (这 种 以 平纹 组 织 交 织 的 薄 纱 面料 是 
由 紧密 纱 线 强 挫 在 一 起 而 织 成 的 ; 它 也 用 来 描述 某 种 派 或 者 蛋糕 。 这 
种 面料 叫 什么 ? ) 


Æ. chiffon (325) ° 


fal: A bit longer than a cocktail dress, one hemmed to end at the 
shins is this beverage“length”. 〈 比 燕尾 服 稍微 长 一 点 ， 长 度 有 从 底部 到 
小 腿 肚 的 距离 这 样 长 的 衣服 部 件 ， 它 也 是 一 种 饮料 的 名 称 。 这 种 衣服 
部 件 叫做 什么 ? ) 


答 : tea (茶叶 ) 。 


Į]: Also the name of a rope for leading cattle, this women's backless 
top has a strap that loops around the neck. 〈 一 种 用 来 牵 拉 牲畜 的 绳子 的 


名 称 ， 它 也 用 于 女人 的 露 痛 上 闭 ， 通 过 绳子 缠绕 在 脖子 上 。 它 叫做 什 
ae) 


答 : halter ( 坦 肩 露 背 上 装 ) 


fa]: If you're wearing Wellingtons at Wimbledon, you're wearing 
these. (如 果 你 在 温 布尔 登 罕 着 威 灵 顿 ， 那 么 ， 你 就 是 罕 着 这 样 的 东 
A, Eletta? ) 


管 : rainboots or galoshes (FIRR ERE) 


[a]: Throw on an outfit from the*Marc by”this a line 〈 穿 上 一 
整套 的 来 目 “Marc by” 这 个 的 设计 师 的 品牌 的 服装 。 这 个 品牌 叫做 什 
A?) 


Æ: Marc Jacobs (马克 : 雅 各 布 斯 ) 


9. 关于 美国 地 理 别 名 的 问题 (U.S 
GEOGRAPHIC NICKNAMES) 


[a]: ^ Cape Hatteras is known as this cemetery synonym“of the 
Atlantic”(〈 这 个 名 称 是 坟墓 的 同义词 ， 哈 特 拉 斯 角 也 被 认为 是 “大 西洋 
的 这 个 名 称 ”。 这 个 名 称 是 什么 ? ) 


4: A graveyard (XÆ) 


[a]: Appropriately enough, this New York metropolis is“Bison City”. 
(这 个 纽约 的 大 都 会 是 “野牛 之 城 ”， 它 的 别名 是 什么 ? ) 


答 : Buffalo (水牛 城 ) ° 


[a]: ^ This town is known as“Sun City"& its downtown is“Glitter 
Gulch”. 〈 这 个 城市 被 认为 是 “太阳 城 ”， 而 且 它 的 中 心 城 区 是 “ 金 沟 银 
冤 ”。 这 个 城市 叫 什 么 ? ) 

= 


Las Vegas 〈 拉 斯 维 加 斯 ) 。 


问 : It's known as both“The Steel City"&"The Iron City". ( 它 被 认 
为 是 “ 钢 之 城 * 和 “ 铁 之 城 *。 它 是 哪 一 个 城市 ? ) 


7. Pittsburgh (ERE) 。 


[a]: “The Coyote State"is an unofficial nickname of this 75,885- 
square-mile state. 〈“ 允 狼 之 州 ? 是 这 个 75 8852E 7; 3& EL NL BE E D BE 
称 ， 它 叫 什么 ? ) 


管 : South Dakota 〈 南 达 科 塔 ) 。 


10. 关于 和 鼠 和 猫 的 问题 (MAGICAL 
MOUSE-TERY TOUR) 


[a]: Itchy (the mouse) & Scratchy (the cat) starred in“Skinless in 
Seattle"on a show within this Fox show. (Itchy (老鼠 ) Wl Scratchy 


( 猫 ) 是 电视 节目 《西雅图 没有 皮肤 》 的 明星 ， 这 个 电视 节目 在 福元 
斯 公司 的 什么 频道 播放 ? ) 


答 : “The Simpsons” ( LEËR- XK) ) 


[a]: In 1939's cartoon“The Pointer”, this guy got a new, more pear- 
shaped body & pupils were added to his eyes. (在 1939 年 的 动画 片 《 指 挥 
家 》 中 ， 这 个 朋友 有 了 一 个 新 的 、 允 型 的 身体 而 且 它 眼 睛 中 加 进 了 瞳 
孔 。 这 个 朋友 是 什么 ? ) 


答 : Mickey Mouse (KÆ BU 


尽管 “ 沃 森 ”存储 了 大 量 的 百科 全 书 和 其 他 信息 ， 但 《危险 边 
绿 ! 》 的 问题 十 分 复杂 ， 并 不 会 让 “ 沃 森 ”轻易 地 找到 管 案 。 自 动 问答 
比 搜索 引擎 复杂 得 多 。 计 算 机 的 搜索 引擎 没 法 直接 回答 这 些 问 题 ， 搜 
索引 擎 只 能 给 出 符合 搜索 关键 词 的 成 千 上 万 个 似是而非 的 可 能 答案 ， 
而 在 目 动 回答 问题 时 ,“ 沃 森 ” 要 通过 各 种 不 同 的 算法 对 所 有 的 这 些 候 
选 答案 取得 更 多 的 证 据 支 持 ， 表 根据 各 种 证 据 的 支持 强度 对 每 个 候选 
答案 计算 出 它们 各 目的 置信 度 ， 最 后 根据 置信 度 来 判断 是 否 同 用 户 提 
供 置 信 度 最 高 的 答案 ， 并 把 这 个 答案 当 作 二 唯一 正确 的 答案 。 


显而易见 ， 这 样 的 搜索 、 计 算 和 判断 过 程 是 极其 复杂 的 ， 对 于 
《危险 边缘 ! 》 提 出 的 任何 一 个 问题 ， 都 需要 动用 几 千 个 处 理 絮 的 超 
级 计算 机 来 处 理 。“ 活 森 ” 需 要 掌握 大 量 的 知识 ， 并 在 相关 的 信息 以 及 
不 相关 的 信息 中 反复 权衡 ， 发 现 线索 。 对 计算 机 来 说 ， 这 是 一 个 巨大 
的 挑战 。 因 为 人 类 可 以 在 瞬间 辨别 出 事物 之 间 的 联系 ， 但 是 计算 机 却 
必须 并 行 地 考虑 所 有 事情 ， 从 而 得 出 结论 。 


在 这 次 人 机 大 战 中 ,“ 沃 森 " 胜 利 了 。* 沃 森 " 最 终 获 得 100 万 类 元 奖 
金 ， 肯 : 往 宁 斯 和 布 拉 德 分 获 30 万 美元 和 20 万 美元 奖金 。“ 证 和 森 ?” 的 天 金 
将 由 它 的 开发 者 IBM 公 司 全 数 捐 给 慈善 机 构 。 往 末期 和 布 拉 特 说 ， 他 


们 会 捐 出 一 半 奖 金 。 


“ 沃 森 ” 的 胜利 意味 着 [BM 公司 已 经 掌握 了 对 人 类 信息 需求 和 问题 
给 予 更 加 准确 而 完善 地 处 理 的 技术 能 力 ， 并 预见 到 了 这 个 领域 存在 巨 
大 商机 。 这 项 成 果 将 被 广 沁 应 用 于 多 个 领域 ， 例 如， 帮助 医生 更 快 、 
更 准确 地 进行 医疗 诊断 ， 帮 助 药 物 学 家 人 研究 潜在 的 药物 交互 作用 ， 帮 
助 律师 和 法 冒 寻找 案例 ， 帮 助 经 济 学 家 在 金融 领域 实现 “假设 ”的 场景 
分 析 并 遵从 法 规 行事 ， 帮 助 商 业 公司 培养 更 加 精明 的 销售 人 员 ， 等 


Ag 
XE 


“ 沃 森 ” 的 胜利 归根 结 故 是 人 类 智慧 的 胜利 ， 因 为 “ 沃 森 ”是 由 人 类 
制造 出 来 的 ， 它 的 智 营 是 人 类 赋予 的 。“ 沃 牺 ?” 的 出 现 ， 改 变 了 在 此 之 
前 的 位 单 的 人 机 关系 ， 并 将 市 来 一 个 轿 新 的 人 机 合作 时 代 。 


SOT 目 然 语言 人 机 接口 


使 用 目 然 语言 建立 的 人 与 计算 机 之 间 的 交互 接口 系统 叫做 自然 语 
言 人 机 接口 (Natural Language Interaction， 人 简称 NLI) 。 这 样 的 自然 语 
言 人 机 接口 可 以 把 用 户 使 用 口头 的 目 然 语言 或 书面 的 自然 语言 提出 的 
问题 转化 为 计算 机 可 以 处 理 的 形式 。 


本 廊 首先 介绍 上 自然 语言 人 机 接口 的 基本 组 成 部 分 、 意 义 表 达 语 言 
(meaning representation language ， 人 简称 MRL) 、 同 义 互 训 软 件 
(paraphraser) 、 反 馈 生 成 软件 (response generator) 。 然 后 介绍 口语 


对 话 系 统 (spoken dialogue systems, fai/KSDSs) ， 分 别 介绍 口语 对 话 
系统 的 单词 识别 软件 、 任 务 模型 、 用 户 模型 、 会 话 模型 、 对 话 管理 软 
件 、 语 音 合成 软件 。 


目 然 语 言 人 机 接口 这 个 术语 用 来 指 用 户 用 自然 语言 来 陈述 对 于 计 
算 机 的 请 求 。 用 户 的 请 求 可 以 是 口语 ， 也 可 以 是 书面 语 。 这 样 的 请 求 
可 以 是 独立 的 句子 ， 也 可 以 是 对 话 的 一 部 分 ， 我 们 使 用 不 同 水 平 的 语 
言 处 理 技术 对 这 样 的 请 求 进 行 分 机 ， 使 之 被 计算 机 理解 。 


在 目 然 语 言 的 计算 机 处 理 中 ， 目 然 语 言 人 机 接口 从 20 世 纪 60 年 代 
晚期 以 来 已 经 进行 了 广泛 的 人 研究， 近年 来 更 多 地 关注 口语 对 话 系统 
(Spoken Dialogue Systems, ， 人 简称 SDSs) 的 研究 。 在 口语 对 话 系统 
中 ， 用 户 的 请 求 是 口语 ， 它 们 被 看 做 是 对 话 的 一 个 部 分 。 口 语 对 话 系 
统 更 着 重 于 从 总 体 上 进行 对 话 分 析 ， 并 关注 对 话 与 用 户 意 图 的 联系 。 


本 节 介 绍 上 自然 语言 人 机 接口 系统 的 中 心 概 念 ， 着 重 讨论 上 自然 语言 
人 机 接口 和 口语 对 话 系 统 。 


目 然 语 言 人 机 接口 使 用 数据 库 提 问 的 方式 来 进行 工作 。 典 型 的 目 
然 语 言 人 机 接口 数据 库 可 以 使 用 类 型 化 的 单 句 来 提问 ， 系 统 根据 提 问 
从 数据 库 中 抽取 信息 ， 作 为 对 于 提问 的 反应 。 请 看 下 面 的 例子 。 


用 户 的 请 求 : Which customers have bought SmartCopiers? 
(哪些 客户 购买 了 SmartCopiers? ) 


系统 的 反应 : ABA France, QuickFly, Power Inc. 


用 户 的 请 求 : How many SmartCopiers has each one bought? 
(每 家 客户 购买 的 SmartCopiers 是 多 少 ? ) 


系统 的 反应 : ABA France 15 
QuickFly 12 


Power Inc. 18 


用 户 的 请 求 : Have any of them also bought QuickCams? 
(这 些 客户 中 还 有 哪 一 家 也 购买 了 QuickCams? ) 


系统 的 反应 : Power Inc. 


在 上 自然 语言 人 机 接口 中 ， 用 户 的 请 求 使 用 “意义 表达 语 
言 ”(Meaning Representation Language， 人 简称 MRL) 来 表示 。 例 如 ， 


Which customers have bought SmartCopiers? 
( 哪 一 家 客户 购买 了 SmartCopier? ) 
这 个 用 户 请 求 被 表示 为 : 


? x, customer name ( x, , x; ) A product name ( x4 , 
2 1 2 3 


SmartCopiers) A purchase (x, , x4 ) 


其 中 ,“? ”是 表示 疑问 的 逻辑 量词 ， 用 于 说 明 变 量 的 值 ， 
customer name (x4,x;) 表示 x 是 客户 xi 的 名 字 ; product_name 
SmartCopiers) 表示 SmartCopiers 是 xs 的 产品 名 称 ; purchase (xi , X ) 
Ax 购买 了 产品 x3。 为 了 节省 空间 ， 这 个 用 户 请 求 中 的 时 人 态 

(tense) 和 体 (aspect) 都 省 略 了 。 


在 目 然 语 言 人 机 接口 中 经 党 对 提问 的 句子 进行 “ 同 义 互 
Wl" (paraphrase) ， 对 于 一 个 提问 提供 出 若干 个 意义 相同 或 者 相近 的 


人 句子， 这 有 助 于 用 户 理解 他 们 的 请 求 是 否 已 经 说 计算 机 正确 地 解释 
了 。 当 用 户 举 棋 不 定 的 时 候 ， 计 算 机 避 ® 把 者 干 个 同 义 互 训 的 句子 目 动 
地 呈现 出 来 ， 用户 可 以 从 中 选择 目 己 认为 最 合理 的 一 个 。 


当 用 户 的 要 求 不 能 得 到 满足 时 ， 自 然 语 言 人 机 接口 会 使 用 “反馈 生 
成 软件 ” (response generator) 给 用 户 提 供 合情合理 的 反馈 。 例 如 ， 


用 户 的 请 求 : Has any customer bought more QuickCams than ABA 
France? 


(有 任何 客户 已 经 购买 了 比 ABAFrance 更 多 的 QuickCams 吗 ? ) 


系统 的 反应 : ABA France hasn't bought any Quickcams. 
(ABAFrance 还 没有 购买 任何 的 QuickCams。) 


用 户 的 请 求 : Has any customer bought more SmarterCopiers than 
ABA France? 
《有 任何 客户 已 经 购买 了 比 ABAFrance 更 多 的 SmartCopier 吗 ? ) 


系统 的 反应 : Yes, Power Inc. has bought 18. 
(ERU, Power Inc. 已 经 购买 了 18 个 。) 


在 上 面 的 第 一 个 问题 中 ， 系 统 检测 到 “ABAFrance 已 经 购买 了 
QuickCams” 这 个 错误 的 假定 ， 并 且 给 用 户 生 成 了 一 个 合情合理 的 反馈 
警告 “ABA France 还 没有 购买 任何 的 QuickCams”。 对 于 上 面 的 第 二 
个 问题 ， 系 统 不 仅 首 先 用 “Yes”(“ 是 的 ”) 来 回应 ， 而 且 还 进一步 给 
户 提 供 了 附加 的 信息 : “Power Inc. 已 经 购买 了 了 18 个”。 


口语 对 话 系统 输入 的 是 口语 ， 口 语 通常 是 不 合 语法 的 ， 不 完整 
的 ， 甚 至 是 字面 意义 不 可 理解 的 。 这 是 口语 的 “特异 


TE" (idiosyncrasy) ° 


下 面 是 口语 对 话 系统 的 一 段 对 话 ， 方 括号 中 的 英语 是 系统 事实 上 
已 经 认 出 来 的 英语 单词 ， 星 号 “ "表示 还 没有 被 认 出 来 一 个 或 多 个 的 音 
LE 


用 Fi Hj 请 X : ErmHelloErmWhatD’ You- 
I’ dLikeSomeInformationOnaFlightaFlighttoAthens 


| *hello*what*you*information*flight to Aachen | 
系统 的 反应 : You want to fly to Aachen? 


用 E 的 请 求 
EhNoNotAthensAthensIsaidAachenWherelsAachenAnyway 


| *no no nottingham aachen athens*aachen what is athens airways | 
系统 的 反应 : You want to fly to Athens? 


用 户 的 请 求 : YeahFinallyYouGotItIwantToLeaveFromGa- 
FromLondonGatwick 


| yes*gatwick i want *leave from*from London gatwick | 
系统 的 反应 : You want to fly from London Gatwick? 
Em mx SOS ii vi BH YT CP UE 0T RTT RRA Ae REIR TR 
多 困难 。 在 这 种 原 守 原味 的 对 话 中 ， 没 有 停顿 来 分 离 单 词 ， 也 没有 过 


号 来 分 离 句 子 。 我 们 使 用 大 写字 母 来 记录 只 是 为 了 帮助 读者 识别 有 关 
的 单词 ， 这 样 的 大 写字 母 在 口头 语言 中 是 不 存在 的 。 


在 这 种 原 守 原味 的 口语 句子 中 ， 经 党 出 现 如 下 的 现象 : 


m 声音 的 迟疑 : 例如 , “erm” o 


m 整个 单词 或 部 分 单词 出 现 重 复 : 例如 ，“a flight a flight, Ga- 


Gatwick” ° 


m ARMIES: 开始 说 话 时 说 错 了 立刻 进行 目 我 修复 。 例 如 , “what 
d'you-I'd like, from Ga-from London Gatwick") 


m 删除 刚 说 出 的 单词 : AAH, “not Aachen, Athens" ° 
mE. 例如 ， 人 机 口语 对 话 的 同时 ， 还 有 其 他 人 在 谈话 。 


a 伴随 出 现 的 语言 外 现象 ， 例 如 ， 口 语 对 话 时 伴随 出 现 的 咳嗽 声 
或 轻微 的 笑 声 。 


这 些 都 反映 出 口语 的 特异 性 。 


在 口语 对 话 系 统 中 ， 输 入 口语 信号 首先 是 由 单词 识别 系统 来 处 理 
的 ， 这 个 系统 试图 辨别 口头 的 词语 ， 这 些 词语 十 建立 在 系统 词 库 中 的 
单词 和 由 其 他 的 组 件 所 提供 的 预测 的 基础 上 的 。 输 出 的 识别 结果 在 模 
糊 的 情况 下 十 一 个 词汇 链 。 下 面 是 用 户 说 出 的 句子 和 单词 识别 后 得 到 
的 相应 的 词汇 链 的 例子 : 


Fi P yis T: 


ErmHelloErmWhatD'You-I'dLikeSomeInformationOnaFlighta- 
FlighttoAthens 


输出 的 词汇 链 : 


| *hello*what*you*information*flight*flight to athens | 


这 样 的 词汇 链 传 达到 分 解 侨 ， 产 生 如 下 一 个 可 能 的 框架 结构 : 


| [greeting: hello| , [dest-airport: athens! 


LJ 


这 个 框架 结构 表示 “问候 :Hello”* 和 “飞行 目的 地 : Athens” 
然后 进入 “任务 模型 ”。 任 务 模型 要 说 明 用 户 想 完成 的 任务 是 什 
么 ， 对 于 每 个 任务 ， 特 别 需 要 给 出 具体 的 应 用 参数 。 例 如 ， 在 一 个 关 


于 航班 任务 的 口语 对 话 系 统 中 ， 任 务 模型 可 能 包括 下 列 内 容 : 
(出 发 日 期 ， 出 发 机 


mix. | dep-date, dep-airport, dest-airport | 
场 ， 飞 行 目 的 地 ) , 
[dep-time-range, arr-time-range| “(出 发 时 间 范 围 ， 到 达 时 间 范 围 ) ， 
[flight-no, dep-time, arr-time] “(航班 号 ， 出 发 时 间 ， 到 达 时 间 ) 
m iJ: |flight-no, dep-date, surname, initials | 


(航班 号 ， 出 发 时 间 ， 乘 客 姓 ， 乘 客 名 ， 状 况 ) 


| flight-no, dep-date, surname, initials] , || , | status | 


, L] , [status | 


m 册 | 除 : 

(航班 号 ， 出 发 时 间 ， 乘 客 姓 ， 乘 客 名 ， 状 况 ) 
这 个 任务 模型 列举 了 三 个 可 能 的 航班 任务 : 
搜索 一 个 合适 的 航班 ， 出 发 日 期 ， 出 发 机 场 ， 飞 行 目 的 地 ;出 发 

时 间 范 围 ， 到 达 时 间 范 围 ， 航班 号 ， 出 发 时 间 ， 到 达 时 间 。 

在 该 航班 上 订购 一 个 座位 : MES, MAA, RZE, RE 

Z, 状况。 

删除 订购 ， 航 班 号 ， 出 发 日 期 乘客 姓 ， 乘 客 名 ， 状 况 。 


对 于 搜索 的 任务 ， 必 须 具 体 说 明 出 发 日 期 ， 出 发 机 场 ， 以 及 目的 
地 机 场 ， 并 且 乘 客 对 于 起 飞 或 到 达 时 间 可 以 在 一 定 范围 内 进行 选择 。 


对 于 订购 的 任务 ， 必 须 具体 说 明 航班 号 ， 确 切 的 起 飞 和 到 达 时 
间 。 


在 订购 和 删除 任务 中 ， 必 须 具 体 说 明 航 班 号 ， 起 飞 日 期 ， 乘客 
姓 ， 乘 客 名 ， 并 且 答 案 将 报告 订 票 和 删除 的 状况 。 


在 口语 对 话 系统 中 还 应 当 建立 “用 户 模型 ”。 用 户 模 型 提供 关于 用 
户 的 兴趣 以 及 系统 承担 的 当前 用 户 的 信念 和 目标 。 在 口语 对 话 时 ， 用 
户 模型 应 当 避 免 报 道 那 些 用 户 早 已 知道 的 信息 ， 状 别 那 些 值得 报道 的 
信息 ， 并 且 提 供 关 于 下 一 个 用 户 话语 的 预测 。 


口语 对 话 系统 中 还 要 建立 “会 话 模型 ”。 会 话 模型 的 主要 功能 之 一 
征 追 踩 会 话 历 史 。 会 话 历史 可 以 说 明 与 用 户 有 关 的 句子 和 系统 信息 的 
会 话 行为 ， 以 及 相关 的 应 用 参数 。 


在 下 面 的 对 话 中 ， 每 一 个 句子 的 箭头 标记 “~ ”后 面 都 注 明 了 会 话 
历史 ， 记 录 着 会 话 行 为 和 相关 的 应 用 参数 。 
系统 的 提问 : On which day do you want to fly? 
(你 想 哪 一 天 起 飞 呢 ? ) 
一 系统 : [request: dep-date | 
(会 话 行为 是 “询问 出 发 的 时 间 ”) 


用 户 的 回答 : This Friday. 
(星期 五 ) 


^ HP assert: [dep-date: 25.05.2001] | 
(会 话 行为 是 “确认 出 发 的 时 间 是 25.05.2001”) 
系统 的 提问 : Where do you want to fly to? 


(你 想 飞 到 哪里 呢 ? ) 


一 系统 :|request: dest-airport | 


(会 话 行为 是 :“ 想 询问 目的 地 机 场 ”) 


用 户 的 回答 : Athens. 
(雅典 ) 


一 用 户 : ”|assert: | dest-airport: athens| | 
(会 话 行为 是 : “确认 目的 地 是 雅典 ”) 


以 上 类 型 的 会 话 历史 十 很 有 用 的 ， 当 用 户 遂 出 的 句子 出 现 省 略 时 
(例如 ， 用 户 没有 说 出 目的 地 “Athens”) ， 计 算 机 可 以 根据 以 前 会 话 
交流 的 历史 推测 出 句子 的 意义 。 


除了 会 话 历史 之 外 ， 会 话 模 型 还 应 当 人 研究 在 特定 的 应 用 领域 之 内 
的 典型 的 会 话 结构 。 例 如 ， 下 面 是 一 个 关于 在 特定 的 航班 订 票 领域 的 
会 话 结构 : 


Tequest 
departure 
time 


request 
destination 


O 


request 
arrival time 


图 15.4 ”会 话 结构 


这 个 会 话 结构 使 用 有 限 状 态 自动 机 (Finite State Automate， 人 简称 
FSA) 来 表示 。 熟 悉 有 限 状态 自动 机 的 读者 不 难 理解 这 个 会 话 结 构 。 


会 话 时 ， 首 先是 “greeting”( 打 招呼) ， 接 着 判断 是 不 是 “request 
destination”《 问 航班 的 方向 ) ， 如 果 回 答 “yes”( 是 ) ， 则 继续 “request 
departure”( 问 天 于 出 发 的 问题 ) ， 如 果 回 答 “no”《 不 是 ) Mi 
说 “sorry”( 对 不 起 ) ， 转 而 “request arrival time”《 问 到 达 时 间 ) ， 等 


ZE o 
XE 


下 面 关 于 航班 订 票 的 会 话 反 映 了 这 个 会 话 结构 的 内 容 。 


系统 : This is the Flight Info System. Name your destination airport. 


(这 是 航班 信息 系统 。 请 说 出 你 的 目的 地 机 场 。) 


用 户 : Athens. 
(雅典 。) 


系统 : Which airport are you flying from? 
(你 从 哪 一 个 机 场 起 飞 ? ) 


用 户 : Gatwick. 
(Gatwick ° ) 


系统 : Sorry, I didn't understand. Which airport are you flying from? 


ORT ANE, RDE o UR MER — BUSES K? ) 


FARR: London Gatwick. 
(伦敦 的 Gatwich 机 场 。) 


系统 : On which day do you want to fly? 
(你 想 在 哪 一 天 起 飞 ? ) 


用 户 : Next Sunday. 
(下 星期 天 。) 


系统 : What time do you want to leave? 


(你 想 在 什么 时 间 离 开 呢 ? ) 


用 户 : Say, around 10 am. 
(大 约 上 午 10 点 。) 


系统 : The following two flight match your requirements ... 


(下 面 两 个 航班 符合 你 的 要 求 .……) 


系统 : Thanks for ringing. 
(谢谢 来 电 。) 


15.4 中 有 限 状 态 自 动机 弧 上 的 “yes”no” 等 标签 可 以 通过 上 壕 的 
会 话 来 检验 ，OR 表 示 在 “request departure time”( 询 问 起 飞 时 间 ) 
或 “request arrival time” (询问 到 达 时 间 ) 之 间 进 行 选择 。 有 兴趣 的 读 
者 可 以 顺 着 会 话 的 顺序 过 历 这 个 有 限 状 态 卓 动机， 这样， 你 就 可 以 更 
加 清楚 地 理解 这 个 会 话 结构 的 功能 。 


会 话 管理 软件 是 口语 对 话 系统 的 核心 组 件 ， 它 管理 由 外 界 的 客观 
世界 、 用 户 和 会 话 模型 所 提供 的 信息 。 功 能 如 下 : 


m 确定 在 当前 语 境 中 用 户 所 说 的 句子 的 框架 结构 ; 
m 决定 系统 是 否 应 该 产生 一 个 信息 ; 


m 决定 系统 是 否 应 该 执行 一 些 行为 (例如 ， 收 回信 息 ) 以 满足 某 
些 潜 在 应 用 的 需求 ; 


m 负责 各 种 组 件 之 间 的 协调 和 交流 。 


会 话 管理 软件 输出 的 信息 可 以 采用 固定 格式 的 文本 来 表述 ， 也 可 
以 附加 语调 标志 ， 这 些 信息 直 接 锌 传送 到 口语 合成 傍 ， 最 后 输出 合成 


的 语音 。 


从 总 体 上 来 说 ， 用 户 在 会 话 过 程 中 是 处 于 主导 地 位 的 ， 但 是 ， 用 
户 说 出 的 口语 有 时 还 需要 系统 进行 核实 。 例 如 ， 在 下 面 的 航班 订 票 的 
会 话 中 ， 乘 客 已 经 说 明了 他 的 航班 的 出 发 机 场 和 目的 地 ， 不 过 ， 由 于 
Athens (雅典 ， 在 希腊 ) 和 Aachen 〈 亚 琛 ， 在 德国 ) 的 读音 相近 ， 系 
统 需 要 进一步 核实 乘客 的 目的 地 是 Athens (JE) ， 而 不 是 Aachen 

GEIR) 。 


系统 : Hello. This is your Flight Info System. 
(你 好 。 这 是 航班 信息 系统 。) 


FA: Hi, I'd like to find out about an evening flight from Gatwick to 
Athens please. 


( 咀 ， 我 想 找 一 个 从 Gatwick 到 雅典 的 晚上 的 航班 。) 


系统 : Did you say Aachen? 
(你 说 的 是 亚 琛 吗 ? ) 


用 户 : What? No, no, Athens. 
(TA? A, 不， 是 雅典 。) 


系统 : On which day do you want to fly to Athens? 
(你 想 在 哪 一 天 飞 到 雅典 去 呢 ?) 


这 种 类 型 的 系统 允许 在 用 户 和 系统 之 间 共 享 某 些 信息 ， 从 而 提高 
对 话 的 准确 性 。 


确认 贷 略 的 选择 也 是 很 重要 的 。 在 没有 误解 的 情况 下 ， 使 用 暗合 
的 确认 信息 是 可 取 的 。 例 如 ， 


用 户 : I'd like to find out about a flight from Gatwick to Athens 


please. 


(我 想 找 一 个 从 Gatwick 到 雅典 的 航班 。) 


系统 : On which day do you want to fly from London Gatwick to 
Athens? 


(你 想 在 哪 一 天 从 伦敦 Gatwick 机 场 飞 到 雅典 去 ? ) 


系统 在 Gatwick 之 前 加 上 了 暗含 的 信息 “伦敦 ”， 使 得 用 户 提出 的 要 
求 更 加 明确 。 这 样 的 对 话 比 明确 地 请 求 提 供 一 个 参数 来 确认 更 加 自 


BER FA RRESHT: 


用 户 : Td like to find out about a flight from Gatwick to Athens 


please. 


(我 想 找 一 个 从 Gatwick 到 雅典 的 航班 。) 


系统 : Do you want to fly from London Gatwick? 


(你 想 从 伦敦 Gatwick 机 场 起 飞 吗 ? ) 
用 户 : Yes. 


系统 : Do you want to go to Athens? 


(你 想 飞 到 雅典 去 吗 ? ) 


用 户 : Yes, yes. 
(是 的 ， 是 的 。) 


系统 : On which day do you want to fly? 
(你 想 在 哪 一 天 起 飞 呢 ?) 


口语 对 话 系统 这 样 多 次 地 进行 确认 ， 可 以 更 加 清楚 地 明确 用 户 的 
意图 ， 是 大 有 好 处 的 。 有 时候， 根本 不 进行 确认 古 很 危险 的 ， 因 为 系 
统 可 能 误解 一 些 东 西 ， 并 且 有 可 能 根据 错误 信息 去 执行 一 些 欧 唐 任 
务 。 因 此 ， 在 口语 对 话 系统 中 让 用 户 明确 地 确认 他 们 的 意图 是 一 个 可 
取 的 办 该 。 


在 未 来 的 二 十 年 里 ， 口 语 对 话 系统 在 现实 生活 中 的 应 用 将 变 得 越 
来 越 普遍 。 我 们 还 需要 进一步 进行 口语 对 话 系 统 的 研究 。 为 了 提高 口 
语 对 话 系统 的 效能 ， 我 们 需要 人 研 制 糊 确 度 更 高 的 口语 识别 软件 ， 研 制 
在 噪音 环境 中 的 口语 对 话 系 统 ， 人 研制 可 重复 使 用 的 口语 对 话 系统 的 各 
种 组 件 和 系统 的 构建 工具 ， 设 计 功能 更 强 的 用 户 模型 ， 开 发 灵活 的 会 
话 模 型 和 会 话 技 术 。 
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第 十 六 章 m 


术语 记录 的 是 科学 技术 的 概念 ， 它 是 人 类 科学 知识 在 目 然 语言 


Hyd ° 


Was vas CA — abot, A SARE ` dB, EE 
不 属于 全 民 共 同 语 的 基本 词汇 ， 一 个 人 也 不 可 能 掌握 全 部 的 术语 。 据 
英国 语言 学 家 统计 ， 智 力 平常 的 英国 人 一 般 只 能 掌握 数 千 个 单词 ， 他 
们 所 能 理解 的 单词 数 很 难 超过 一 万 个 ， 束 是 智力 出 众 的 英国 人 掌握 的 
词汇 量 也 不 会 超过 十 万 个 单词 ， 而 现代 英语 的 单词 数量 已 远 远 地 超过 
了 一 百 万 个 ， 因 此 ， 就 很 有 必要 对 语言 中 这 大 量 的 词汇 进行 搜集 、 记 
录 、 整 理 和 控制 。 在 这 大 量 的 词汇 中 ， 术 语 与 现代 科学 和 技术 的 联系 
是 最 密切 的 ， 它 的 搜集 、 记 录 、 人 整理 和 控制 工作 殉 显 得 更 加 迫切 和 重 
2e 


本 章 介绍 术语 数据 库 和 最 近 兴 起 的 计算 术语 学 ， 它 们 都 是 自然 语 
言 处 理 在 术语 研究 中 的 重要 的 应 用 领域 。 


第 一 三 ”术语 数据 库 


存储 在 计算 机 中 的 记录 概念 和 术语 的 上 自动 化 电子 词典 ， 叫 做 术语 
数据 库 (terminological database) ° 


术语 数据 库 产 生 主要 有 三 个 方面 的 原因 。 


早期 的 术语 工作 基本 上 是 编写 各 种 专业 性 的 术语 词典 ， 这 些 术 语 
词典 有 单 语 的 ， 也 有 双语 的 ， 完 全 徘 手 工 来 编排 。 由 于 术语 数量 日 与 
俱 增 ， 科 学 技术 中 所 创造 的 概念 体系 越 来 越 复杂 ， 传 统 的 用 手工 方式 
作 术 语 卡 片 并 按 字母 顺序 排列 的 存储 方法 已 经 远 远 满足 不 了 实际 的 需 
要 ， 必 须 单 新 存储 技术 ， 这 是 术语 数据 库 产生 的 自 要 原因 。 


其 次 ， 由 于 术语 数量 太 大 ， 必 须 寻 找 新 的 途径 ， 以 缩短 查找 术语 
言 息 的 时 间 ， 这 是 术语 数据 库 产生 的 第 二 个 原因 。 目 前 ， 国 际 标准 化 
组 织 (ISO) 已 经 发 布 的 国际 术语 标准 大 约 有 300 个 ， 正 在 制定 的 国际 
术语 标准 草案 (DIS) 和 国际 术语 标准 建议 草案 (DP) 大约 有 200 个 ， 
我 国 已 经 发 布 的 国家 术语 标准 有 600 多 个 ， 包 含 术 语 条 目 10 万 多 条 ， 在 
许多 非 术 语 标准 中 ， 对 于 该 标准 所 用 的 术语 也 有 说 明和 定义 ， 如 有 宁 把 
这 些 非 术语 标准 中 所 收 的 术语 也 算 进 去 ， 我国 已 经 发 布 的 各 种 术语 条 
目 还 要 多 得 多 。 对 于 数量 如 此 庞大 的 术语 ， 如 果 采 用 传统 的 手工 方式 
来 管理 ， 几 乎 是 不 可 能 的 。 在 这 种 情况 下 ， 建 立 术 语 数 据 库 不 势 在 必 
ma-e 


再 其 次 ， 传 统 的 词典 编纂 方法 费时 而 又 费力 ， 术 语词 典 的 出 版 周 
期 很 长 ， 不 便于 经 常 地 更 新 ， 许 多 术语 词典 刚刚 问世 ， 残 已 经 过 时 或 
不 完全 了 ， 为 了 提高 术语 词典 的 编纂 效率 和 缩短 术语 词典 的 出 版 周 
期 ， 也 有 必要 采用 计算 机 技术 ， 这 是 术语 数据 库 产生 的 第 三 个 原因 。 


利用 电子 计算 机 建立 术语 数据 库 ， 不 但 能 够 以 极 快 的 速度 来 处 理 
概念 体系 极为 复杂 的 术语 数据 ， 而 且 能 够 在 计算 机 的 存储 介质 上 存储 
大 量 的 术语 数据 ， 这 殊 从 根本 上 改革 了 传统 的 术语 词典 编 窜 技术 ， 实 
现 了 术语 词典 编 究 的 现代 化 。 


世界 上 第 一 个 术语 数据 库 ， 是 由 巴克 拉克 (J.A. Bachrach) 于 1963 
年 在 卢森堡 建立 的 ， 叫 做 DICAUTOM. 这 个 术语 数据 库 是 为 了 协助 欧洲 
煤 钢 联营 最 高 机 构 的 翻译 工作 者 进行 翻译 之 用 ， 由 于 种 种 原因 ， 几 年 
以 后 这 个 术语 数据 库 被 放弃 了 。 但 是 ， 借 助 于 电子 计算 机 来 处 理 大 量 
术语 数据 的 思想 却 流传 了 下 来 。 


术语 数据 库 中 的 术语 主要 有 三 个 来 源 。 


第 一 个 来 源 旦 来 目 术 语 学 家 们 从 各 个 领域 的 科技 文献 中 分 析 得 来 
的 术语 ， 这 些 术语 在 进入 术语 数据 库 之 前 ， 必 须 按照 术语 学 原则 进行 
前 处 理 和 预 加 工 。 


第 二 个 来 源 旦 来 目 其 它 的 术语 数据 库 中 的 术语 数据 ， 为 了 在 不 同 
的 术语 数据 库 之 间 进 行 数据 的 传输 和 转换 ， 各 个 术语 数据 库 之 间 必 须 
具有 相 容 性 。 


第 三 个 来 源 十 来 目 术 语 数 据 库 的 用 户 ， 如 翻译 工作 者 、 技 术 编 
辑 、 科 技 专家 、 专 业 语言 教师 等 。 他 们 可 以 给 术语 数据 库 经 和 党 提供 在 
工作 中 接触 到 的 各 种 新 术语 ， 更 新 术语 数据 库 的 内 容 。 


每 个 术语 数据 库 都 应 该 具备 三 种 功能 ， 输 入 功能 、 存 储 功能 和 输 


输入 功能 又 包括 三 方面 的 内 容 ， 术 语 的 采集 、 术 语 的 校对 、 术 语 
的 计算 机 输入 。 采 集 术 语 时 ， 要 把 每 个 术语 编写 在 一 张 术语 采集 卡片 
E; 校对 先 由 人 工 进行 ， 把 所 有 的 卡片 都 校对 好 ， 然 后 再 在 计算 机 上 
进行 ， 术 语 的 计算 机 输入 ， 则 要 根据 程序 系统 的 编制 格式 ， 对 术语 进 
行 分 类 处 理 ， 并 把 它们 输入 到 计算 机 的 存储 介质 上 。 随 着 计算 机 技术 
的 进展 ， 术 语 的 采集 和 术语 的 校对 现在 都 可 以 使 用 计算 机 来 完成 了 。 


存储 功能 要 求 在 计算 机 上 作出 三 种 文件 ， 作业 文件 、 转 移 文 件 和 
主 文 件 。 作 业 文 件 存储 那些 质量 未 经 核实 的 术语 数据 ， 这 些 数据 还 没 
有 按照 该 数据 库 的 使 用 方式 进行 过 彻 必 的 处 理 ， 转 移 文件 存储 从 其 它 
术语 数据 库 转 移 过 来 的 术语 数据 ， 主 文件 则 全 面 地 存储 符合 该 数据 库 
使 用 方式 要 求 的 术语 数据 ， 这 时 ， 每 一 条 术语 的 各 个 数据 项 都 必须 是 
规格 化 的 。 


输出 功能 要 能 够 提供 给 用 户 两 个 方面 的 术语 数据 :1. 针对 某 一 个 
术语 ， 输 出 它 的 有 关 数 据 项 ，2. 针对 某 一 个 学 科 领 域 ， 输 出 该 学 科 的 
全 部 或 部 分 术语 数据 。 


术语 数据 库 可 按 不 同 的 标准 来 分 类 。 

按 术 语 数 据 库 的 目的 来 分 ， 可 分 为 : 

1. 为 科技 交流 而 建立 的 术语 数据 库 ; 

2. 为 术语 推广 而 建立 的 术语 数 库 ; 

3. 为 术语 标准 化 或 术语 协调 而 建立 的 术语 数据 库 。 
按 术 语 数 据 库 的 用 户 来 分 ， 可 分 为 : 

1. 为 翻译 工作 者 而 建立 的 术语 数据 库 ; 

2. 为 术语 学 家 或 词汇 学 家 而 建立 的 术语 数据 库 ; 
3. 为 技术 编辑 而 建立 的 术语 数据 库 ; 

4. 为 科技 领域 专家 而 建立 的 术语 数据 库 ; 


5. 为 专业 语言 教师 而 建立 的 术语 数据 库 ; 
6. 为 一 般 公 众 而 建立 的 术语 数据 库 。 


按 对 语言 的 态度 来 分 ， 可 分 为 : 
1. 起 规范 作用 的 术语 数据 库 〈 仅 只 搜集 标准 术语 ) : 


2. 提供 数据 用 的 术语 数据 库 (搜集 未 经 标准 化 的 、 带 有 对 术语 的 
各 种 评价 的 术语 数据 ) : 


3. 纯 描述 性 的 术语 数据 库 (搜集 各 种 术语 资料 、 不 加 任何 评 
fr) 。 


安 资 料 的 组 织 方式 来 分 ， 可 分 为 : 
1. 以 文献 为 基础 的 术语 数据 库 ; 

2. 以 术语 为 基础 的 术语 数据 库 。 
按 术 语 的 使 用 方式 来 分 ， 可 分 为 : 


1. 直接 使 用 的 术语 数据 库 (如 通过 计算 机 、 电 传 打 字 机 、 互 联 
网 、 电 话 、 移 动 通信 设备 来 直接 联机 使 用 ) ; 


2. 间接 使 用 的 术语 数据 库 〈《 如 通过 高 速 打印 机 、 上 自动 印刷 机 打印 
或 印刷 之 后 来 间接 脱 机 使 用 ) 。 


从 计算 技术 的 角度 来 看 ， 对 于 术语 数据 库 应 该 有 如 下 的 要 求 : 


一 一 术语 数据 库 的 硬件 ， 应 该 选择 较 先 进 的 计算 机 种 ， 能 较 容 易 
地 实现 主机 与 外 围 设备 的 配套 ， 系 统 兼 容 性 好 ， 软 件 支 撑 能 力 强 ， 应 


具有 多 用 户 和 通信 和 功能， 应 有 足够 的 内 存 和 外 存 ， 数 据 处 理 的 速度 、 
系统 的 输入 输出 能 力 应 充分 满足 业务 数量 和 用 户 数量 的 需要 ， 应 具有 
较 强 的 可 扩充 性 ， 能 比较 方便 地 实现 现场 升级 。 


术语 数据 库 的 软件 ， 主 要 包括 系统 软件 、 文 字 处 理 软件 、 数 
据 库 管理 软件 、 通 信 探 制 软件 等 ， 这 些 软 件 应 该 完整 、 配 侠 ， 形 成 系 
统 ， 应 该 还 具有 较 好 的 灵活 性 和 可 移植 性 ， 对 运行 环境 有 较 强 的 适应 
能 力 ， 应 该 有 对 用 户 友好 的 人 机 界面 ， 数 据 库 管理 软件 应 能 方便 地 进 
行 数据 的 存 取 、 检 索 、 补 充 、 修 改 和 删除 。 


一 一 术语 数据 库 的 通信 和 系统， 应 能 实现 先进 的 计算 机 网 络 通信 ， 
支持 开放 系统 互 连 ， 能 实现 经 由 网 络 的 数据 库存 取 。 


一 一 术语 数据 库 中 的 数据 ， 应 该 正确 无 误 ， 具 有 一 致 性 、 完 整 
性 ， 数 据 不 仅 应 独立 于 计算 机 系统 ， 而 且 还 应 独立 于 存 贮 方法 和 存 取 
方式 ， 随 着 学 科 的 发 展 ， 可 以 及 时 地 用 新 的 术语 数据 来 更 新 旧 的 术语 
数据 。 


一 与 汉语 有 关 的 术语 数据 库 还 应 该 具有 简 繁 体 汉字 信息 处 理 能 
力 ， 根 据 实际 的 需要 ， 还 应 该 能 处 理 多 语言 符号 、 特 殊 符号 、 图 形 和 
公式 。 


一 一 大 型 的 术语 数据 库 还 应 该 有 较 强 的 联网 能 力 ， 以 便 与 其 他 的 
术语 数据 库 实现 资源 共 至 。 


20 世 纪 60 年 代 末 期 以 来 ， 各国 开 始 建立 术语 数据 库 。 据 统计 ， 
1989 年 ， 世 界 上 已 经 建立 的 术语 数据 库 共 有 74 个 ， 其 中 ， 国 际 组 织 8 
个 ， 多 国 集 团 2 个 ， 地 区 性 组 织 2 个 ， 德 国 8 个 ， 法 国 6 个 ， 和 荷兰 6 个 , 日 
本 4 个 ， 美 国 3 个 ， 加 拿 大 3 个 ， 西 班 牙 3 个 ， 芬 兰 3 个 ， 比 利 时 3 个 ， 挪 
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列 、 澳 大 利 亚 、 奥 地 利 、 巴 西 等 国 各 1 个 。 欧 洲 的 术语 数据 库 占 了 世界 
术语 数据 库 总 量 的 70%， 亚 洲 术 语 数 据 库 仅 占 世界 术语 数据 库 总 量 的 
109%6， 其 中 半数 都 在 日 本 。 可 见 ， 术 语 数据 库 大 部 分 都 建立 在 发 达 国 
家 ， 这 是 因为 发 达 国 家 对 信息 传递 的 数量 、 质 量 和 速度 有 很 高 的 要 
求 ， 对 术语 数据 库 的 要 求 十 分 迫切 。 当 然 ， 这 些 发 达 国 家 也 有 足够 的 
经 济 和 技术 力量 来 开发 高 质量 的 术语 数据 库 。 


目前 ， 世 界 上 主要 的 术语 数据 库 有 如 下 几 个 : LEXIS, TEAM, 
EURODICAUTOM, NORMATERM,  TERMDOK, TERMNOQ, 
TERMIUM, GLOT, DANTERM, ASITO 等 。 其 中 ， 有 些 术语 数据 库 已 
经 科研 和 生产 中 发 挥 了 很 好 的 作用 ， 取 得 了 经 济 效 益 。 


下 面 ， 我 们 简要 介绍 这 些 术语 数据 库 。 


1.LEXIS 术 语 数据 库 


这 是 联邦 德国 国防 部 的 术语 数据 库 ， 于 1959 年 开始 研制 ，1966 年 
全 部 投入 运转 。 该 术语 库 中 所 收 的 术语 ， 主 要 由 德国 国防 部 翻译 服务 
处 提供 ， 也 有 一 部 分 术语 是 为 翻译 有 关 核 潜艇 的 技术 文献 而 搜集 的 。 


该 库 的 术语 工作 与 德国 国防 部 翻译 服务 处 的 配合 极为 密切 ， 术 语 
的 增加 和 更 新 都 必须 首先 考虑 翻译 服务 处 的 需要 ， 每 条 新 术语 都 要 经 
过 国防 部 内 部 的 一 个 术语 审定 委员 会 的 认可 ， 才 能 够 收入 LEXIS 。 


LEXIS 系 统 的 维护 是 面向 用 户 的 ， 由 翻译 人 员 提出 需要 输入 的 新 术 
语 ， 最 多 不 得 超过 两 个 星期 整 得 处 理 完毕 。 


为 了 不 影响 系统 的 研究 和 改进 ，LEXIS 系 统一 分 为 二 : 一 个 是 为 用 
尸 服务 的 ， 在 运行 中 ， 数 据 不 能 随便 改变 ， 男 一 个 是 供 人 研究 用 的 ， 数 
据 可 以 改变 ， 等 系统 更 新 之 后 ， 再 提供 用 户 使 用 。 由 于 供用 户 用 的 系 
统 与 供 人 研究 用 的 系统 闫 格 分 开 ， 整 个 LEXIS 的 工作 有 条 不 率 。 


LEXIS 现 有 工作 人 员 约 40 人 ， 其 中 包括 20 个 术语 词汇 学 家 和 5 个 计 
算 机 专家 。 术 语 的 年 平均 生产 量 是 35 000 条 ， 平 均 每 个 工作 人 员 每 天 生 
产 16 条 ， 每 一 条 术语 至 少 要 注 明 德 文 和 男 一 种 外 文 《如 英文 ) ， 每 条 
术语 实际 上 是 德语 -外 语 的 术语 对 。 


由 于 德国 国防 部 的 大 多 数 翻 译 工作 是 从 英语 译 为 德语 ， 全 部 术语 
记 杂 中 都 包含 德语 。 例 如 ， 当 需要 从 英语 查询 法 语 术 语 时 ， 必 须 通 过 
德语 术语 为 媒介 。LEXIS 术 语 库 中 的 语言 ， 现 有 英语 、 德 语 、 法 语 、 俄 
语 、 波 兰 语 、 荷 兰 语 和 意大利 语 等 七 种 。 


所 收 术 语 的 专业 领域 有 有 国防、 航空、 航天、 天文、 数据 处 理 、 电 
子 学 、 工 业 管理 、 机 械 工程 、 物 理 、 造 船 和 电子 通讯 等 。 术 语 库 中 的 
术语 定期 地 进行 新 的 增补 。 


LEXIS 系 统 在 两 台 IBM 中 型 计算 机 上 运行 : 一 台 是 IBM 3033， 供 联 
机 处 理 之 用 ， 一 台 是 IBM 3031， 供 批 处 理 之 用 。 这 两 台 计 算 机 都 安置 
在 德国 国防 部 计算 中 心 。 输 入 数据 时 ， 必 须 由 打字 员 按 一 定 的 格式 键 
入 信息 。 输 出 时 ， 除 一 般 由 打印 机 打印 之 外 ， 还 可 采用 磁盘 输出 、 缩 
微 平 片 输出 及 COM 设 备 (计算 机 缩微 胶片 输出 绘图 仪 ，， 输 出 质量 较 
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除了 出 售 缩微 平 请 有 少许 的 收入 之 外 ，LEXIS 的 经 费 全 是 由 德国 政 
府 提供 的 ， 它 是 目前 在 德国 完全 由 政府 给 予 财政 支持 的 唯一 的 术语 数 
据 库 。 


为 了 改进 输入 技术 ，LEXIS 目 前 正在 研究 一 个 文章 目 动 阅读 系统 ， 
该 系统 可 对 和 欲 译 的 文章 目 动 生成 一 个 术语 表 存 入 术语 数据 库 中 。 


2. TEAM 术 语 数 据 库 


这 是 德国 西门 子 公司 的 术语 数据 库 ， 建 于 1976 年 。 西 门 子 公司 在 
IWE (München 设 有 外 语 服务 处 ， 在 多 年 的 翻译 实践 中 ， 他 们 积累 
了 数量 相当 可 观 的 多 种 语言 的 技术 术语 ， 再 加 上 西门 子 公司 在 计算 机 
的 硬件 和 软件 技术 上 有 很 大 的 优势 ， 当 把 这 些 技术 术语 在 先进 的 计算 
技术 的 文 持 下 建成 术语 数据 库 之 后 ， 便 显示 出 了 术语 数据 库 的 优越 
性 ， 大 大 地 提高 了 西门 子 公司 外 语 服务 处 的 工作 效率 ， 同 时 ， 还 把 多 
年 精心 积 素 的 技术 术语 变 成 了 可 以 获得 经 济 效 益 的 术语 库 产 品 。 


根据 用 户 的 不 同情 总，TEAM 术 语 数据 库 除 了 为 西门 子 公 司 的 各 个 
部 门 服务 之 外 ， 还 可 为 其 它 单位 提供 服务 ， 并 为 出 版 部 门 进行 数据 处 
理 。 


TEAM 术 语 库 现 有 工作 人 员 约 30 人 ， 其 中 ， 有 12 个 术语 词汇 学 家 ， 
8 个 计算 机 工程 师 ， 术 语 的 输入 工作 大 部 分 是 临时 雇用 打字 员 利 用 光学 
字符 阅读 专用 设备 OCR-B 来 进行 的 。 术 语 的 年 平均 生产 量 只 十 10 000 
条 ， 而 从 理论 上 说 ， 平 均 每 个 术语 学 家 一 年 可 加 工 3 333 条 术语 ， 为 了 
克服 人 浮 于 事 的 现象 ，TEAM 术 语 库 的 工作 人 员 有 必要 进行 精简 。 


TEAM 术 语 库 现 有 术语 1 000 000 条 ， 可 分 成 若干 个 彼此 独立 的 子 库 
(pool) ， 所 有 的 术语 条 目 都 包含 德语 术语 并 至 少 包含 一 种 等 价 的 外 话 
术语 。 但 是 ， 术 语 的 条 目 数 并 不 等 于 术语 数据 库 中 所 储存 的 概念 数 ， 
因为 在 各 个 子 库 之 间 ， 存 在 着 大 量 重 复 的 术语 ， 各 个 单独 的 子 库 可 以 
按 自己 的 计划 各 自发 展 ， 而 每 个 翻译 单位 还 可 以 单独 建立 自己 的 子 
库 ， 甚 至 西门 子 公司 之 外 的 一 些 用 户 ， 如 荷兰 外 交 部 翻译 服务 处 、 答 
兰 飞 利 清 公司、 联邦 德国 标准 化 委员 会 以 及 一 些 词典 出 版 商 ， 也 可 以 
建立 自己 的 子 库 ， 并 将 这 些 子 库 纳 入 TEAM 系 统 之 中 ， 这 样 ，TEAM 系 
统 束 显 得 非常 庞杂 ， 但 也 因此 而 获得 了 更 多 的 用 户 。TEAM 术 语 数 据 库 
中 的 语言 ， 现 有 德语 、 英 语 、 法 语 、 西 班 牙 语 、 俄 语 、 和 葡萄 牙 语 、 和 荷 
兰 语 、 阿 拉 伯 语 等 八 种 。 


所 收 术 语 的 专业 主要 是 电子 学 、 数 据 处 理 以 及 跟 西 门 子 公司 的 主 
要 商业 活动 有 关 的 领域 。 


TEAM 系 统 建 在 SIEMENS 7000 计 算 机 上 ， 输 入 方式 可 采用 OCR-B 
专用 光学 字符 阅读 设备 、 软 磁盘 、VDU 视 频 显 示 器 ( 配 有 30 个 
VDU) 、 文 件 编辑 器 等 多 种 。 输 出 方式 也 很 多 样 ， 可 采用 打印 机 、 
COM 计 算 机 缩微 胶片 输出 绘图 仪 、 照 相 排 版 缩微 胶卷 、 人 磁带 以 及 
VDU 视 频 显示 句 等 。 所 有 的 输出 方式 都 配 有 相应 的 设备 。 由 于 有 西门 
子 公 司 在 技术 上 作为 后 盾 ， 其 设备 之 先进 ， 是 其 它 的 术语 数据 库 系统 
望尘莫及 的 。 


TEAM 术 语 库 的 用 户主 要 是 西 1] 了 于 公司 的 翻 详 人 员 及 技术 文献 的 编 
辑 人 员 ， 除 此 之 外 ， 和 荷兰 外 交 部 翻译 服务 处 、 和 荷兰 飞利浦 公司 以 及 生 
产 缩微 胶卷 的 翻译 部 门 都 可 以 使 用 TEAM 术 语 数 据 库 的 设备 ， 联 邦人 德国 
标准 化 委员 会 、 同 西门 子 公司 有 关系 的 出 版 商 还 可 以 使 用 TEAM 系 统 的 
软件 和 硬件 。 


TEAM 术 语 数据 库 是 西门 子 公司 外 语 服务 处 建立 的 ， 它 得 到 了 德国 
政府 的 文 持 。 由 于 西门 子 公 司 之 外 的 用 户 都 为 TEAM 术 语 库 提 供 的 服务 
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据 库 与 机 器 翻译 联系 起 来 ， 利 用 TEAM 术 语 数据 库 ， 采 用 人 机 交互 的 方 
式 来 查询 机 右 翻 详 中 翻译 不 了 的 生 售 术语 ， 这 样 ， 束 可 以 把 术语 数据 
库 中 术语 的 存 取 与 机 右 翻 译 中 的 文本 目 动 分 析 技 术 结 合 起 来 。 


3.EURODICAUTOM 术 语 数 据 库 


这 是 欧洲 共同 体 的 术语 数据 库 。 这 个 术语 数据 库 是 在 前 有 的 
DICAUTOM 及 EUROTERMS 这 两 个 术语 数据 库 的 基础 上 建立 起 来 的 ， 
于 1976 年 开始 研制 。 


EURODICAUTOM 术 语 数据 库 的 研制 目的 有 三 个 : 


第 一 ， 给 欧洲 共同 体 总 部 的 翻译 人 员 提 供 一 个 方便 、 灵 活 的 动态 
联机 系统 ， 使 他 们 能 迅速 地 查询 到 有 关 的 新 术语 。 


第 二 ， 把 欧洲 共同 体 各 国 的 术语 工作 集中 起 来 ， 避 人 免 重 复 劳 动 ， 
使 得 这 个 系统 能 够 为 欧洲 共同 体 各 翻译 部 门 的 其 他 翻译 人 员 使 用 。 


第 三 ， 在 一 定 程度 上 ， 把 欧洲 共同 体 各 种 官方 语言 的 官方 文件 的 
术语 使 用 协调 和 统一 起 来 。 


EURODICAUTOM 术 语 库 现 有 12 个 术语 词汇 学 家 ， 他 们 几乎 都 上 
全 日 班 。 此 外 ， 还 有 自由 职业 的 翻译 人 员 (平均 6 人 ) 和 打字 员 (平均 


4 人 ) 作 辅 助 性 工作 ， 程 序 设 计 由 翻译 服务 部 门 之 外 的 人 来 进行 。 


EURODICAUTOM 术 语 库 的 语言 ， 现 有 英语 、 法 语 、 意 大 利 语 、 
何 兰 语 、 和 丹麦 语 、 西 班 牙 语 和 和 项 萄 牙 语 ， 目 前 正 设 法 把 使 用 非 拉 丁字 
母 的 希腊 语 也 包括 进来 。 该 系统 有 250 000 条 普通 术语 和 75 000 条 缩写 
术语 ， 术 语 的 更 新 速度 是 每 年 10 000K 。 


所 收 术 语 的 专业 领域 十 分 广泛 ， 几 乎 涉及 了 各 个 技术 学 科 及 自然 
科学 基础 学 科 。 这 有 是 因为 欧洲 共同 体 是 一 个 国际 组 织 ， 写 的 翻译 领域 
较 多 ， 翻 译 内 容 较 杂 ， 与 单一 国家 的 语言 情况 不 一 样 。 


EURODICTAUTOM 术 语 库 原来 建 在 IBM 370/158 计 算 机 上 ， 现 已 
转 到 SIEMENS 7760 计 算 机 上 运行 ， 外 围 设备 有 大 量 的 VDU 视 频 显 示 
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EURODICTAUTOM 术 语 库 的 用 户主 要 是 欧洲 共同 体 总 部 的 翻译 人 
， 共 同体 的 其 它 单 位 和 官方 机 构 亦 可 对 术语 数据 库 提 出 询问 ， 据 报 
，1982 年 间 ， 该 系统 每 天 回答 638 个 用 户 提 问 。 


im xn 


为 了 供 欧洲 共同 体 各 国 使 用 这 个 术语 数据 库 ，EURODICAUTOM 
术语 库 还 通过 EURONET 通 讯 网 络 ， 为 共同 体 的 两 百 多 个 向 
EURODICTAUTOM 登 记过 的 单位 提供 咨询 服务 。 此 外 ， 该 系统 还 与 联 
合 国教 科 文 组 织 (UNESCO) 、 经 济 合作 与 开发 组 织 (OECD) ^ HA 
卫生 组 织 (WHO) 、 法 国 的 NORMATERM 术 语 数 据 库 以 及 瑞典 TNC 技 
术 术 语 中 心 等 建立 了 密切 的 联系 ， 它 还 将 一 部 分 软件 移植 到 墨西哥 的 
术语 文献 中 心 去 。 


EURODICTAUTOM 术 语 库 由 欧洲 共同 体 提 供 财 政 支 持 。 


4. NORMATERM 术 语 数据 库 


这 是 法 国标 准 化 组 织 AFNOR 的 术语 数据 库 。 开 发 这 个 术语 数据 库 
的 目的 就 是 为 了 控制 和 存 取 AFNOR 日益 增加 的 术语 。 由 于 标准 化 的 需 
要 ， 只 有 那些 AFNOR 认 可 的 标准 术语 才能 收入 NORMAITERM 术 语 数据 
库 中 。 


目前 ，AFNOR 并 没有 设置 专门 的 机 构 来 管理 NORMATERM， 术 语 
数据 库 的 工作 由 AFNOR 情 报 文献 服务 处 兼 管 。 这 个 情报 文献 服务 处 现 
有 13 个 情报 文献 学 家 、2 个 图 书馆 员 、1 个 非 全 日 制 的 术语 词汇 学 家 、2 
个 全 日 制 的 翻译 人 员 ，20 个 非 全 日 制 的 翻译 人 人员。 他们 除了 管理 
NORMATERM 术 语 数 据 库 之 外 ， 还 得 做 情报 文献 方面 的 工作 。 


由 于 NORMATERM 术 语 库 只 收 标准 术语 ， 它 对 于 所 收 的 术语 的 控 
制 是 十 分 严格 的 ， 每 一 条 术语 都 要 求 绝 对 可 靠 。 术 语 库 现存 23 000 个 概 
念 ， 以 法 语 为 形式 来 存储 ， 这 些 概念 都 根据 AFNOR 和 ISO 的 有 关 术 语 
标准 作 过 认真 的 审查 和 仔细 的 校 核 。AFNOR 还 打算 把 国际 电工 词汇 也 
收入 到 这 个 术语 库 中 ， 因 为 这 也 是 非常 可 靠 的 标准 化 术语 。 由 于 
AFNOR 对 于 入 库 术 语 的 审查 非常 之 严格 ， 术 语 的 年 平均 产量 只 有 1 000 


条 。 


NORMATERM 术 语 库 建 在 法 国标 准 化 组 织 计 算 中 心 的 IRIS 45 计 算 
机 上 ， 这 人 台 计 算 机 主要 是 用 来 管理 AFNOR 的 文献 的 ， 用 于 术语 数据 库 
的 联机 工作 时 间 每 天 只 有 1 小 时 。 输 入 采用 读 卡 机 ， 输 出 采用 宽 行 打印 
机 、COM 设 备 和 VDU 视 频 显示 器 。 


NORMATERM 术 语 库 除 了 用 来 作 AFNOR 的 术语 标准 化 工作 之 外 ,， 
还 要 为 AFNOR 的 情报 文献 学 家 作 主 题词 表 的 工作 ， 因 而 AFNOR 是 其 主 
要 用 户 。 另 外 ， 工 业界 的 一 些 赞 助 者 亦 来 NORMATERM 存 取 数 据 。 


NORMATERM 术 语 数 据 库 是 由 法 国政 府 提供 财政 支持 ， 同 时 也 得 
到 工业 界 的 赞助 。 


5. TERMDOK 术 语 数据 库 


这 是 瑞典 技术 术语 中 心 的 术语 数据 库 。 北 欧 斯 堪 的 纳 维 亚 国家 的 
语言 比较 复杂 ， 给 科技 交流 和 进出 口 贸易 带 来 不 少 困难 ， 因 此 非常 需 
要 建立 多 语言 的 术语 数据 库 。TERMDOK 现 收 术 语 70 000 条 ， 语 言 有 瑞 
典 语 、 英 语 、 法 语 、 德 语 、 西 班 牙 语 、 丹 麦 语 、 挪 威 语 、 芬 兰 语 等 ， 
这 个 术语 数据 库 的 建立 ， 对 于 克服 北欧 国家 的 语言 障碍 大 有 好 处 。 由 
于 涉及 的 语种 较 多 ， 术 语 的 年 平均 产量 是 5 000 到 10 000% 。 


TERMDOK 现 有 4 个 术语 词汇 学 家 和 3 个 文献 学 家 ， 他 们 在 瑞典 技 
术 术 语 中 心 还 有 其 它 工作 ， 不 能 在 TERMDOK 上 全 日 班 。 


TERMDOK 术 语 库 是 建立 在 微型 计算 机 上 的 ， 但 随 着 存 入 的 术语 
的 数目 的 增加 ， 很 快 就 暴露 了 微型 计算 机 的 局 限 性 ， 现 已 转 到 DEC-10 
数字 计算 机 上 ° 


TERMDOK 术 语 库 的 服务 方式 是 多 样 的 。 用 户 可 打 电 话 直 接 问 瑞 
典 技术 术语 中 心 查 询 术 语 ， 除 了 供用 户 查 询 之 外 ，TERMDOK 还 出 版 
了 一 些 多 语言 术语 词典 ， 并 定期 癌 读 者 提供 情报 服务 。 


TERMDOK 术 语 库 得 到 瑞典 政府 的 财政 支持 ， 同 时 ， 通 过 出 售 词 
典 和 咨询 服务 ，TERMDOK 本 号 也 可 以 有 一 些 经 济 收入 ， 做 到 目 力 更 
He o 


6. TERMNOQ 术 语 数据 库 


这 是 加 拿 大 魁北克 法 语 委员 会 的 术语 数据 库 。 


TERMNOQ 术 语 数据 库 是 根据 魁北克 省 101 号 法 令 的 精神 而 建立 
的 。 这 个 法 令 规定 ， 在 和 岁 北 克 省 的 一 切 公 司 和 单位 都 必须 使 用 法 语 。 


TERMNOQ 术 语 数 据 库 现 有 70 个 术语 词汇 学 家 。 术 语 库 系统 的 维 
护 由 7 个 计算 机 工程 师 组 成 的 一 个 小 组 负责 ， 他 们 有 75% 的 工作 时 间 用 
于 TERMDOQ 术 语 数 据 库 。 


该 术语 库存 的 术语 达 1 000 000 条 英 一 法 术语 对 。 已 经 确定 的 术语 
存 入 一 个 公共 文件 中 ， 而 正在 研制 的 术语 则 存 入 临时 的 工作 文件 中 ， 
术语 的 存 取 限 制 极为 产 格 。 


TERMDOK 术 语 数据 库 建 在 AMDAHL 计 算 机 上 ， 输 入 通过 软磁盘 
及 VDU 视 频 显 示 装 备 来 进行 ， 可 容许 联机 操作 ， 但 数据 的 处 理 和 更 新 
是 脱 机 的 。 


这 个 术语 数据 库 供 括 北 克 省 的 官方 机 构 及 公司 使 用 。 在 法 国 巴 歼 
设 有 一 个 终端 ， 叫 做 FRANTERM， 但 尚未 运行 。 


TERMDOK 术 语 库 的 开发 和 人 研制 完全 由 魁北克 省 政府 提供 财政 文 


7. TERMIUM 术 语 数 据 库 


这 征 加 拿 大 蒙特 利 尔 大 学 开发 的 术语 数据 库 。 加 拿 大 国务 院 早 在 
1974 年 束 要 求 在 加 拿 大 各 政府 机 构 中 使 用 英语 和 法 语 的 标准 术语 ， 而 
加 拿 大 政府 的 文件 都 要 有 瑞 文 和 法 文 两 种 文本 ， 这 了 束 要 进行 规范 的 翻 
译 ， 翻 译 任务 是 很 重 的 。 为 了 提高 加 拿 大 政府 翻译 服务 处 的 工作 效 
率 ， 才 由 蒙特 利 尔 大 学 开发 了 这 个 术语 数据 库 。 


TERMIUM 术 语 库 的 工作 人 员 很 多 ， 麻 用 了 100 多 个 术语 词汇 学 
家 ， 术 语 库 系统 的 维护 由 4 个 程序 人 员 组 成 的 专门 小 组 来 负责 。 


加 拿 大 联邦 翻译 局 在 从 事 浩 党 的 英 一 法 对 译 的 工作 中 ， 可 以 积 
累 成 和 于 上 万 的 英语 术语 和 法 语 术语 ， 因 而 自 建 库 以 来 ， 术 语 库 中 的 术 
语 条 目 与 日 俱 增 ， 现 已 达 1 700 000 条 ， 除 去 重复 多 余 、 质 量 较 差 的 条 
目 之 外 ， 至 少 也 有 600 000 条 优质 的 术语 。 术 语 的 专业 领域 极为 广泛 ， 
几乎 涉及 到 各 个 科技 部 门 。 


TERMIUM 术 语 库 建 在 CYBER 74 计 算 机 上 。 主 要 用 户 是 加 拿 大 联 
孝 政 府 的 翻译 人 员 。 另 外 ， 在 加 拿 大 的 某 些 驻 外 机 构 例如， 巴黎 的 
文化 中 心 ， 布 鲁 塞 尔 的 加 拿 大 驻 比 利 时 使 迄 ) 也 可 对 TERMIUM 术 语 库 
进行 术语 数据 的 存 取 。 


TERMIUM 由 加 拿 大 联邦 政府 提供 全 部 的 财政 开 文 。 


8. GLOT 术 语 数 据 库 


这 是 联邦 德国 夫 环 和 费 研 究 院 (Fraunhofer Gesellschaft) 的 术语 数 
据 库 ， 建 于 1985 年 。 


为 了 促进 欧洲 计算 机 信息 处 理 的 研究 ， 欧 洲 共同 体 提 出 了 ESPRIT 
计划 。 所 谓 ESPRIT， 束 是 “欧洲 信息 拉 术 人 研究 和 发 展 战 略 计 
Xl" (European Strategic Programme for Research and Development in 
Information Technology) 的 英文 首 字 母 缩 写 。 在 ESPRIT 计 划 中 有 一 个 
课题 叫做 HUFIT (Human Factors in Information Technology 的 简称 ) ， 
专门 全 究 人 的 因素 在 信息 处 理 技 术 中 的 作用 ， 而 GLOT 术 语 数据 库 的 人 研 
制 ， 束 是 HUFIT 课 题 的 一 个 重要 方面 。 


GLOT 术 语 数 据 库 建 在 DEC-VAX 11/750 计 算 机 上 ， 使 用 VMS 操 作 
系统 和 ALL-IN-ONE 软 件 。 从 1988 年 开始 ， 为 了 进一步 扩充 系统 和 改进 
系统 的 性 能 ， 改 用 UNIX 操 作 系统 和 ORACLE 关系 数据库 。 


在 GLOT 术 语 数 据 库 中 ， 每 条 术语 包括 下 列 数据 项 目 : 德 文 术语 、 
专业 领域 、 上 位 概念 、 等 价 的 英文 术语 、 等 价 的 法 文 术语 、 等 价 的 意 
大 利文 术语 、 等 价 的 希腊 文 术语 、 同 义 术语 、 缩 写 术 语 、 概 念 类 别 、 
出 处 、 日 期 、 德 文 定义 、 喘 文 定义 等 。 定 义 一 方面 由 人 研究 院内 的 专家 
撰写 ， 一 方面 采用 臣 尔 辈 法 (Delphi Method) 向 研究 院 之 外 的 专家 调 
查 ， 请 院外 有 天 的 专家 写 一 些 定义 ， 同 时 ， 还 从 专业 词典 和 各 种 术语 
标准 中 精 选 一 些 定义 ， 这 样 ， 束 可 以 做 到 每 一 条 术语 部 具有 一 个 权威 
性 的 定义 ， 为 术语 的 标准 化 提供 了 依据 。 


9. GLOT-C 中 文 术语 数据 库 


根据 中 德 科技 合作 协定 ， 本 书 作 者 于 1986 一 1988 年 在 夫 环 和 费 研 
究 院 参 与 GLOT 术 语 数 据 库 的 研制 ， 使 用 UNIX 控 作 系 统 和 INGRES 关 
系数 据 库 ， 在 DEC-VAX 11/750 计 算 机 上 建立 了 中 文 术 语 数 据 库 GLOT- 
C o 


GLOTC 中 文 术语 数据 库 收 入 了 国际 标准 化 组 织 从 1974 年 到 1985 年 
期 间 公 布 的 ISO-2382 标 准 中 的 全 部 数据 处 理 术 语 。 每 一 个 术语 条 目 包 
括 如 下 项 目 : 术语 的 索引 号 、 中 文 术语 、 等 价 的 英文 术语 、 中 文 术语 
的 概念 类 别 、 中 文 同 义 术 语 、 中 文 多 源 术 语 、 用 户 对 术语 的 使 用 态 
度 、 术 语 的 使 用 地 区 限制 、 术 语 的 使 用 专业 领域 限制 、 中 文 术 语 的 结 
构 格 式 、 中 文 术语 的 歧义 类 型 等 。 从 这 些 内 容 可 以 看 出 ，GLOT-C 中 文 
术语 数据 库 是 从 规范 化 和 标准 化 的 角度 来 建立 的 出 。 


与 国外 现 有 的 其 它 术语 数据 库 相 比 ，GLOT-C 中 文 术语 数据 库 的 有 
两 个 显著 的 特点 : 


第 一 、 重 视 术 语 结 构 与 歧义 的 研究 ， 提 出 了 “潜在 歧义 
ib" (Potential Ambiguity Theory， 简 称 “PA 论 ”) 。PA 论 认为 ， 当 汉语 
术语 中 的 词组 类 型 结构 与 句法 功能 结构 不 存在 “一 一 对 应 ”的 关系 的 时 
修 ， 就 会 产生 潜在 歧义 。 在 术语 的 词组 类 型 结构 中 插入 词汇 单元 之 
后 ， 这 种 潜在 歧义 可 能 消失 ， 也 可 能 转化 为 现实 的 歧义 结构 ， 对 此 ， 
PA 论 制 定 了 在 中 文 术 语 数 据 库 中 术语 歧义 的 判定 原则 和 方法 。 根 据 PA 
论 ， 可 以 从 中 文 术语 的 词组 类 型 出 发 ， 通 过 有 和 穷 个 步骤 ， 准 确 地 判定 
中 文 术语 的 歧义 类 型 。 关 于 这 个 问题 ， 本 书 第 五 章 第 二 下 中 已 经 作 了 


论述 。 


第 二 、 重 视 术 语 数 据 库 基本 理论 的 研究 ， 提 出 了 “术语 形成 的 经 济 
律 "， 证 明了 术语 系统 的 经 济 指数 与 术语 平均 长 度 的 乘积 恰恰 等 于 单词 


的 术语 构成 频 度 之 值 ， 并 提出 “FEL 公 式 ?” 来 描述 这 一 定律 。 进 一 步 的 实 
验证 明 ，FEL 公 式 也 适用 与 其 它 各 种 语言 的 术语 数据 库 ， 因 而 它 生 摘 述 
一 切 术 语 数 据 库 的 一 个 普遍 公式 ， 是 现代 术语 学 中 的 一 个 普遍 规律 e 


GLOT-C 中 文 术语 数据 库 是 世界 上 第 一 个 中 文 术语 数据 库 ， 这 个 木 
语 数据 库 的 建立 ， 为 中 文 术语 的 计算 机 处 理 提 供 了 有 用 的 经 验 铝 。 


10. 正在 开发 中 的 术语 数据 库 


丹麦 政府 正 开发 一 个 国家 级 的 术语 数据 库 ， 主 要 供 大 学 科研 之 
用 ， 使 用 PRIME 450/550 计 算 机 。 


联邦 德国 标准 化 委员 会 (DIN) 正在 开发 一 个 术语 数据 库 叫 做 
TERM ， 现 有 术语 56000 & ° KA iE RM d$ FE 5E TEAM 和 
EURODICAUTOM 都 有 密切 的 联系 o 


联邦 德国 德 素 斯 顿 技术 大 学 正在 开发 一 个 术语 数据 库 叫 做 EWF， 
使 用 俄罗斯 制造 的 53CM-6 电 子 计算 机 。 


俄罗斯 技术 情报 分 类 和 编码 研究 所 正在 开发 一 个 术语 数据 库 叫 做 
ASITO， 使 用 MINSK 22M 计 算 机 。 


傈 兰 海牙 的 SHELL 公 司 正在 开发 一 个 术语 数据 库 叫做 Mechanized 
Dictionary， 工 作 人 员 17 人 ， 现 有 术语 14 000 条 ， 使 用 IBM 370/168 计 算 
机 。 


FE] GE SE Se EBA (Université de Clemont-Ferand) 开发 了 一 个 
小 型 的 术语 数据 库 CEZEAU， 仅 存 建筑 工程 方面 的 英语 和 法 语 术 语 。 


委内瑞拉 加 拉 加 斯 的 西蒙 - 博 利 瓦尔 大 学 (Universidad Simon 
Bolivar) 语言 学 系 正 在 开发 一 个 术语 数据 库 ， 以 收集 、 储 存 和 传播 同 
该 大 学 有 关 的 各 技术 领域 的 标准 术语 。 


美国 国家 标准 局 在 华盛顿 开发 的 术语 数据 库 ， 采 用 UNIVAC 计 算 机 
和 KWIC 软 件 。 


加 拿 大 IBM 公 司 在 蒙特 利 尔 开 发 的 术语 数据 库 ， 采 用 IBM 计 算 机 和 
STAIRS 软 件 ， 现 有 工作 人 员 18 人 。 


法 国 IBM 公 司 在 巴黎 开发 的 术语 数据 库 ， 采 用 IBM 计 算 机 和 一 个 文 
持 文献 翻译 的 软件 。 


日 本 科学 技术 情报 中 心 在 东京 开发 的 术语 数据 库 ， 采 用 HITACHI 
8450 计 算 机 和 一 个 词汇 控制 系统 软件 ， 已 收 术 语 35 000 条 。 


日 本 国际 医学 情报 中 心 在 东 束 开发 的 术语 数据 库 ， 采 用 IBM 370 计 
FAL 。 


瑞士 的 Brown Boveri & Cie 公 司 在 巴 登 (Baden) 开发 的 术语 数据 
库 ， 采 用 IBM 370/158 计 算 机 ， 这 个 术语 数据 库 是 从 LEXIS 系 统 移植 
的 。 


瑞士 巴塞 尔 (Basel) 人 造 丝 及 合成 纤维 标准 化 国际 管理 局 开发 的 
术语 数据 库 ， 现 有 工作 人 员 3 名 。 


美国 WEIDNER 通 讯 公 司 在 犹他 州 开发 的 术语 数据 库 ， 使 用 DEC 
11/70 计 算 机 ， 现 有 工作 人 员 17 人 “。 这 个 术语 数据 库 还 可 以 文 持 该 公司 
的 机 瑚 翻译 系统 。 


世界 气象 组 织 在 瑞士 日 内 瓦 开发 的 术语 数据 库 ， 采 用 IBM 370/158 
计算 机 ， 现 有 工作 人 员 11 人 。 


联邦 德国 RUHRGAS 公 司 在 埃 森 (Essen) 开发 的 术语 数据 库 ， 采 
用 IBM 计 算 机 ， 软 件 是 在 EURODICAUTOM 系 统 的 基础 上 修改 而 成 
的 。 


英国 伦敦 不 列 颠 图 书 绢 开发 的 术语 数据 库 ， 现 有 工作 人 员 4 人 。 


术语 数据 库 的 开发 和 研制 现在 已 经 风靡 人 全球。 特别 在 科学 技术 比 
较 发 达 的 国家 ， 术 语 数 据 库 的 发 展 非 第 迅速 。 


fe Lv BARE, LEXIS, TEAM 和 EURODICAUTOM 三 个 术 
语 数据 库 是 当今 世界 上 内 容 最 丰富 ， 项 目 最 完备 的 系统 。 


EX Y8 Oe Pe AY Ot H BS A8 IR] © EURODICAUTOM XK 8 FE 
是 为 了 翻译 人 员 的 需要 ，NORMATERM 术 语 库 是 为 了 标准 化 的 需要 ， 
而 TEAM 术 语 库 则 采用 一 般 性 的 办 法 ， 以 适应 各 种 不 同 的 需要 ， 其 至 还 
可 以 满足 图 书 出 版 商 的 需要 。 在 种 种 不 同 的 研究 背景 下 ， 这 些 术 语 数 
据 库 不 能 彼此 兼容 ， 它 们 的 术语 数据 库 数 据 互 不 兼容 ， 难 于 互 换 ， 给 
术语 数据 库 之 间 的 交流 带 来 不 便 。 


束 古 人 钱 制 目的 相同 的 术语 数据 库 ， 术 语 条 目的 格式 、 术 语 数据 的 
结构 也 不 完全 一 样 ， 彼 此 之 间 也 很 难 兼 容 。 


这 种 情况 说 明 ， 有 必要 协调 世界 范围 内 的 术语 数据 库 工 作 ， 进 行 
术语 数据 库 的 标准 化 ， 只 有 这 样 ， 术 语 数 据 库 才 可 能 发 挥 更 大 的 效 
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此 外 ， 国 外 一 些 出 版 公司 还 发 行 了 机 读 的 词典 数据 库 ， 这 些 数据 
E BE LASEK WEEE (floppy disk) 的 方式 发 行 ， 还 能 够 以 光盘 (CD- 
ROM) 的 方式 发 行 。 例 如 ， 英 国 的 Collins-MTX 词 典 把 《Collins 袖 珍 词 
典 》 (Collins Pocket Dictionary) 做 在 一 个 软磁盘 上 ， 法 国 的 Le Robert 
电子 词典 把 《Robert 法 语 大 词典 》 ( Grand Robert de la langue 
francaise) 做 在 一 个 光盘 上 。 


国外 还 有 一 些 软 件 公司 出 售 数据 库 管 理 软件 ， 并 同时 提供 有 关 的 
专业 词 表 。 例 如 ，Eurolux 公 司 出 售 Termex/MTX Eurolux 软 件 ， 同 时 提 
供 数据 处 理 、 经 济 学 、 贸 易 等 专业 的 双语 、 三 语 或 四 语词 表 ，Trados 公 
司 出 售 TermTracer 和 MultiTerm Trados 软 件 ， 同 时 提供 计算 机 科学 、 经 
济 学 等 专业 的 词 表 。 


有 时 ， 用 户 由 于 特殊 的 需要 ， 不 能 利用 已 经 建立 好 的 术语 数据 库 
和 词典 、 词 表 等 ， 而 必须 根据 自己 的 特殊 需要 来 建立 自用 术语 数据 
库 。 目 前 ， 国 外 已 经 出 了 一 些 使 用 简单 、 售 价 低廉 的 术语 数据 库 软 
件 。 例 如 ， 德 国 的 MULTITERM 软 件 可 以 管理 多 语言 木 语 数据 库 ， 条 目 
长 度 最 大 可 达 4094 字 符 ， 程 序 可 种 驻 内 存 ， 用 户 可 利用 它 来 自 建 术语 
数据 库 ; 德国 的 INK-TERMTRACER 软 件 可 以 管理 双语 言 术 语 数 据 库 ， 
程序 常 驻 内 存 ， 用 户 界面 友好 ， 售 价 低廉 ， 适 于 用 户 自 建 术语 数据 
库 o 


我 国术 语 数据 库 的 研究 起 步 较 晚 ， 机 电 部 机 械 科技 情报 所 1989 年 
开始 建立 机 电工 程 术 语 数据 库 ， 计 划 收 孙 50 万 条 术语 ， 第 一 期 工程 收 


录 25 万 条 术语 ， 分 20 几 个 门类 ，100 多 个 专业 , 汉 、 英 、 法 、 德 、 日 、 
俄 六 种 语言 对 照 ， 这 个 术语 数据 库 规模 很 大 ， 已 经 完成 。 此 外 ， 国 家 
语言 文字 工作 委员 会 语言 文字 应 用 研究 所 建立 了 英 一 汉 对 照 的 应 用 语 
言 学 术语 数据 库 TAL 和 计算 语言 学 术语 数据 库 COL、 中 国 科技 信息 所 建 
立 了 英 一 汉 对 照 的 情报 与 文献 标准 术语 数据 库 、 北 京 大 学 建立 了 汉 一 
英 一 日 一 德 对 照 的 计算 语言 学 术语 数据 库 。 


术语 数据 库 的 标准 化 有 利于 协调 各 个 术语 数据 库 的 工作 ， 我 国 近 
来 已 经 公布 了 《建立 术语 数据 库 的 一 般 原 则 和 方法 》 (GB/T 13725- 
92) 和 《术语 与 辞书 条 目的 记录 交换 用 磁带 格式 》 (GB/T 13726-92) 
等 国家 标准 ， 审 定 了 《术语 数据 库 开 发 指南 》 和 《术语 数据 库 开 发 用 
文件 编制 指南 》 等 国家 标准 。 这 些 国家 标准 为 我 国术 语 数据 库 的 开发 
和 研制 提供 了 规范 。 
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第 二 节 ”计算 术语 学 

近年 来 ， 在 术语 学 的 研究 中 ， 开 始 引 进 目 然 语言 的 计算 机 处 理 的 
方法 和 技术 ， 出 现 了 * 计 算术 语 学 ”外 (computational terminology) 这 
个 学 科 。1998 年 的 计算 语言 学 国际 会 议 COLING-ACL'98 上 ， 组 织 了 世 
界 上 第 一 次 计算 术语 学 的 讨论 会 (First Workshop on Computational 


Terminology) ， 这 次 讨论 会 首次 使 用 的 “计算 术语 学 ”这 个 学 科 名 称 。 
这 次 讨论 会 讨论 的 问题 主要 有 : 


m 如 何 抽取 术语 以 满足 信息 检索 的 需要 ; 


m 如 何 抽取 术语 以 便 使 用 双语 语料库 来 进行 翻译 ; 


m 如 何 进 一 步 完 善 和 原 有 术语 抽取 的 工作 〈 例 如 ， 如 何 建立 概念 层 
级 网 络 ， 如 何 搜索 语义 信息 或 概念 信息 ) 。 


1998 年 的 这 次 讨论 会 成 万 了 计算 术语 学 发 展 的 催化 剂 ， 从 此 ， 计 
算术 语 学 便 成 为 一 个 新 兴 的 术语 学 的 学 科 ， 活 跃 在 当代 科学 技术 的 百 
化 园 中 ， 并 且 一 天 天 地 成 熟 起 来 ， 初 步 具 备 了 系统 的 理论 和 有 效 的 方 
法 ， 值 得 我 们 特别 地 关注 。 


在 “计算 术语 学 ”这 个 名 称 出 现 10 年 之 前 ， 本 书 作 者 在 1988 年 就 注 
意 到 术语 的 自动 处 理 问题 ， 他 在 德国 斯 图 加 特 (Stuttgart) 的 夫 琅 不 费 
研究 院 (Fraunhofer Gesellschaft) 使 用 计算 机 对 汉语 的 词组 型 术语 进行 
了 目 动 结构 分 析 ， 并 为 术语 数据 库 GLOT-C 编 制 了 汉字 索引 ， 这 是 国际 
上 最 早 进 行 计算 术语 学 研究 的 学 者 之 一 加 o 


在 自然 语言 的 计算 机 处 理 的 诸多 领域 中 ， 都 离 不 开 术 语 ， 例 如 ， 
机 器 翻译 (machine translation) 目前 主要 是 翻译 专业 性 的 文献 ， 术 语 的 
自动 处 理 与 机 器 翻译 系统 的 译文 质量 有 密切 的 关系 ; 此外， 信息 检索 
(information retrieval) 、 信 息 抽 取 (information extraction) 、 文 本 分 
类 (text classification) 的 运算 的 基本 单位 都 是 单词 型 术语 或 词组 型 术 
语 ， 也 离 不 开 术 语 的 目 动 处 理 。 


术语 是 目 然 语言 处 理 中 的 一 种 特殊 的 词汇 数据 ， 与 语言 中 一 般 的 
普通 词汇 不 同 ， 术 语 大 多 数 都 是 由 多 个 单词 组 成 的 词组 型 术语 ， 它 们 
对 于 科学 技术 的 发 展 特别 敏感 ， 时 时 刻 刻 随 着 科学 技术 的 进步 而 发 
展 。 在 术语 的 发 展 过 程 中 ， 它 们 不 断 地 丰富 ， 不 断 地 充实 ,不断 地 变 
化 ,术语 的 语义 也 在 不 断 地 转移 ， 一 些 旧 的 术语 消失 了 ， 一 些 痢 的 术 
语 产 生 了 ， 一 些 旧 的 术语 获得 了 新 的 含义 。 在 这 样 的 情况 下 ， 术 语 数 
据 库 需要 经 常 地 维护 ， 不 断 地 用 新 的 术语 充实 原来 的 内 容 ， 有 了 时 其 至 


需要 重建 ， 以 反映 科学 技术 的 日 新 月 异 发 展 的 要 求 。 这 样 ， 术 语 的 发 
现 (term detection) 或 术语 的 获取 (term acquisition) 就 成 为 了 术语 自 
动 处 理 的 一 个 重要 内 容 。 术 语 发 现 可 以 进一步 分 成 两 个 类 型 : 如 采 在 
术语 发 现 中 不 依赖 初始 的 术语 数据 ， 那 么 ， 这 样 的 术语 发 现 叫 做 “初始 
术语 发 现 ” (initial term acquisition) ; 如 果 在 术语 发 现 中 要 使 用 初始 的 
术语 数据 ， 那 么 ， 这 样 的 术语 发 现 叫 做 * 原 有 术语 充实 ” (term 
enrichment) 。“ 原 有 术语 充实 ”一 般 应 用 来 更 新 叙 词 表 (thesaurus) , 
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在 文本 自动 处 理 中 ， 术 语 的 使 用 与 术语 的 自动 辨识 (term 
recognition) 是 紧密 联系 在 一 起 的 。 术 语 的 自动 辨识 主要 研究 如 何 进 行 
术语 的 自动 标 引 (automatic indexing) 。 在 自然 语言 处 理 中 ， 为 了 便于 
言 息 的 存 取 ， 文 本 文献 总 是 要 使 用 单词 表 或 词组 表 ， 因 此 ， 有 必要 在 
文本 文献 中 进行 术语 的 自动 标 引 (automatic indexing of terms) ， 然 后 
根据 自动 标 引 的 结果 ， 使 用 计算 机 来 自动 地 生成 单词 型 术语 表 或 词组 
型 术语 表 。 由 于 术语 是 科学 技术 知识 在 自然 语言 中 的 结晶 ， 术 语 能 够 
浓缩 地 表示 特定 的 科学 技术 领域 中 的 主要 概念 ， 它 们 可 以 被 看 成 是 文 
本 内 容 的 抽象 描述 ， 文 本 文献 经 过 术语 的 自动 标 引 之 后 ， 束 能 大 体 上 
反映 出 其 内 容 。 因 此 ， 在 文本 自动 处 理 中 ， 术 语 的 自动 标 引 是 非常 重 
要 的 。 


根据 在 标 引 时 是 否 依赖 初始 的 术语 数据 ， 术 语 的 目 动 标 引 也 可 以 
分 为 两 个 类 型 : 如 末 在 术语 标 引 中 不 依赖 初始 的 术语 数据 ， 那 么 ， 这 
样 的 术语 标 引 叫做 * 自 由 标 引 ” (free indexing) ; 如 果 在 术语 标 引 中 要 
使 用 初始 的 术语 数据 作为 参照 ， 那 么 ， 这 样 的 术语 标 引 叫做 “ 受 挥 标 


引 ” (controlled indexing) 。 


总 起 来 说 ， 术 语 自 动 处 理 可 以 这 样 来 分 类 (如 表 16.1 所 示 ) : 


表 16.1 术语 自动 处 理 的 四 个 主要 领域 


不 依赖 于 初始 术语 数据 “| ”依赖 于 初始 术语 数据 


术语 发 现 初始 术语 发 现 原 有 术语 充实 
术语 辨识 自由 标 引 受 控 标 引 


下 面 我 们 介绍 国外 的 术语 发 现 研究 和 术语 辨识 研究 情况 名 。 


首先 介绍 “术语 发 现 ” 的 研究 。 发 现 候选 术语 的 方法 大 致 可 以 分 为 
符号 法 (symbolic approach) 和 统计 法 (statistical approach) 两 种 。 符 
号 法 根据 术语 (主要 是 名 词 词组 ) 的 句法 描述 来 发 现 候 选 术语 ; 统计 
法 根据 词组 型 术语 中 组 成 成 分 的 互信 息 (Mutual Information) 来 发 现 
术语 ， 组 成 成 分 之 间 的 互信 息 越 大 ， 它 们 组 成 术语 的 可 能 性 也 就 越 
大 。 符 号 法 和 统计 法 还 可 以 进一步 细 分 为 如 下 的 各 种 方法 : 


(1) 基于 语法 的 术语 发 现 方法 : 例如 ， 在 1994 年 ， 洛 里 斯 通 (A. 
Lauriston) 在 TERMINO 系 统 中 提出 了 一 种 基于 语法 的 术语 发 现 方法 ， 
这 种 方法 要 对 文本 进行 剖析 ， 利 用 文本 中 的 单词 和 句法 线索 (lexical 
and syntactic clues) 来 发 现 术 语 匡 。 剖 析 模 型 的 操作 顺序 如 下 : 


a. 预 处 理 : 首先 对 文本 进行 过 滤 ， 除 去 那些 对 于 术语 发 现 无 用 的 
形式 特征 《如 ， 虚 词 ， 停 用 词 ) : 


b. 副 析 并 抽取 术语 : 
u 形 仿 分 析 ; 


名 词 短语 剖析 
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c 交互 式 术语 数据 库 的 构建 和 管理 : 给 用 户 提供 友好 的 界面 ， 把 
前 面 步骤 中 抽取 出 来 的 术语 构建 成 术语 数据 库 。 


(2) 句法 模式 与 选择 限制 相 结合 的 方法 : 例如 ， 在 1996 年 ， 布 尼 
RIKI (D. Bourigault) 人 研制 的 术语 上 自动 处 理工 具 LEXTER [8! 。 
LEXTER 使 用 带 标 记 的 语料库 ， 语 料 库 中 的 标记 有 词汇 特征 的 标记 和 人 句 
法 模式 的 标记 两 种 ， 这 个 工具 有 一 个 可 视 化 的 界面 ， 可 用 来 确认 并 组 
织 从 带 标 记 的 语料库 中 抽取 出 来 的 术语 。 使 用 这 样 的 方法 发 现 术 语 的 
过 程 如 下 : 


a. 最 大 名 词 短 语 的 分 离 : LEXTER 可 使 用 分 离 规则 ， 从 最 大 名 词 短 
语 (maximal noun phrase) 中 把 可 能 性 最 大 的 术语 边界 分 离 出 来 。 例 
如 ， 在 法 语 的 最 大 名 词 短语 中 ， 过 去 分 词 与 介词 结合 而 成 的 组 合 很 可 
能 是 术语 的 边界 ， 在 法 语 最 大 名 词 短 语 les clapets situés sur les tubes 
d'alimentation (位 于 进 气管 上 的 阀门 "P, situés sur 是 术语 的 边界 ， 把 
整个 名 词 短语 分 离 为 les clapets (BTI) Fles tubes d'alimentation 〈 进 气 
E) 两 部 分 ， 这 两 部 分 分 别 是 两 个 不 同 的 术语 。 其 中 , "situés sur" 是 句 
法 模式 ， 这 个 模式 的 使 用 取决 于 句法 模式 situés sur 的 选择 限制 ， 这 个 句 
法 模式 的 前 面 和 后 面 都 应 当 是 名 词 短 语 。 在 最 大 名 词 短 语 les clapets 
situés sur les tubes d'alimentation" , les clapets fi les tubes d'alimentation 
正好 是 名 词 短 语 ， 句 法 模式 的 这 种 选择 限制 是 通过 内 置 的 机 器 学 习 程 
序 从 语料库 中 自动 地 学 习 得 到 的 。 


b. 把 最 大 名 词 短 语 分 解 成 候选 术语 : 确定 了 术语 的 边界 之 后 ， 就 
可 以 把 最 大 名 词 短 语 分 离 为 两 个 部 分 ， 通 过 计算 机 处 理 之 后 ， 最 后 由 
人 来 判定 这 些 候选 术语 ， 并 把 确认 后 的 术语 加 入 到 术语 数据 库 中 。 例 


如 ， 确 定 了 situks sur 是 不 同 术语 的 边界 之 后 ， 束 可 以 从 最 大 名 词 短 语 les 
clapets situés sur les tubes d'alimentation F ， 把 术语 les clapets 和 术语 les 
tubes dalimentation 目 动 地 抽取 出 来 ， 作 为 候选 术语 ， 加 入 到 术语 数据 
库 中 。 双 如， 在 法 语 中 ，pylDne à haute tension (高 压 电线 架 ) 的 句法 
模式 是 : N+Prep+Ad+N ， 经 过 最 大 名 词 短 语 分离 之 后 ， 把 
N+Prep+Adj+N 分 离 为 NtPrep 和 Adj+N 两 个 部 分 ， 最 后 ， 再 把 结构 类 型 
为 Adj+N 的 haute tension (AEE) 作为 候选 术语 提取 出 来 ， 加 入 到 术 
语 数据 库 中 。 


c. 候选 术语 编组 :根据 所 得 到 的 候选 术语 在 句法 结构 上 的 相似 程 
度 ， 把 它们 组 织 起 来 。 例 如 ， 法 语 中 的 vanne motorisés (HAITI) >` 
vanne pneumatique (气动 门 ) ^ vanne d'alimentation ( 进 气 门 ) 都 有 共 
同 的 中 心 词 vanne ， 就 把 它们 组 织 起 来 ， 形 成 一 组 彼此 之 间 有 关系 的 候 
选 术语 。 


d. 专家 审定 : 这 些 进 入 术语 数据 库 的 候选 术语 ， 由 专家 做 最 后 的 
审定 ， 确 定 为 正式 的 术语 ， 充 实 了 原 有 的 术语 。 


(3) 句法 模式 与 统计 过 滤 相 结合 的 方法 : 例如 ， 在 1996 年 ， 达 义 
(B. Daile) 研制 的 ACABIT 是 一 个 把 句法 模式 与 统计 过 滤 结 合 起 来 的 
术语 研究 工具 中 。ACABIT 获 取 候 选 术语 的 步骤 如 下 : 


a. 语言 规则 过 滤 (linguistic filtering) : 根据 术语 结构 的 语言 学 规 

则 ， 使 用 有 限 状态 转移 网 络 发 现 候选 术语 ， 在 英语 中 ， 主 要 考虑 三 种 

模式 的 术语 : Adj+N, N+N, N+Prep+N。 由 这 三 种 模式 扩展 而 形成 的 变 

体 ， 也 可 以 作为 候选 术语 的 般 选 范围 。 例 如 ，satellite transit network 

(N+N+N) 可 以 看 成 是 由 N+N 模 式 扩展 而 成 的 ，mnultiple satellite links 
(Adj+N+N) 可 以 看 成 是 由 模式 Adj+N 和 模式 N+N 扩 展 而 成 的 。 


b. 统计 排序 (statistical ranking) : 使 用 某 些 统计 方法 ， 对 前 面 的 
步骤 筛选 出 来 的 候选 术语 进行 排序 。 例 如 ， 计 算 候选 术语 的 “对 数 似 然 
Hf" (log-likehood ratio) ， 根 据 计 算 结 果 对 于 候选 候选 术语 排序 ， 得 出 
在 统计 意义 上 可 能 性 最 大 的 术语 。 


(4) 抽取 搭配 信息 的 方法 : 例如 ， 在 1993 年 ， BSE (F 
Smadja) 人 研制 的 Xtract 是 一 个 专门 用 于 抽取 搭配 关系 的 工具 H9! o Xtract 
的 重点 不 是 关心 术语 本 身 ， 而 是 关心 术语 在 意义 上 的 可 搭配 性 。 只 
那些 在 语义 上 可 以 搭配 的 词语 才 可 以 算 做 候选 术语 例如 ，stock trader 

(存货 商人 ) ，last selloff (最 后 的 存货 ) 在 语义 上 是 可 以 搭配 的 ， 根 
据 这 种 搭配 信息 ， 可 以 把 它们 抽取 为 候选 术语 。 候 选 术语 的 选择 也 要 


(5) 非 语言 学 的 方法 : 使 用 独立 于 语言 的 术语 抽取 工具 来 抽取 术 
语 。 例 如 ， 恩 格 哈 特 (C.Enguehard) PIFI (L. Pantera) 在 1995 年 
研制 的 术语 提取 工具 ANA II。ANA 是 独立 于 具体 语言 的 术语 自动 抽 
取 工 具 ， 这 个 工具 包括 两 个 模块 : 


a. 预 熟 悉 模 块 (familiarization module) : 使 用 预 熟 悉 模 块 来 确定 
= Riaz: 
m 停 用 词语 表 a list) : 停 用 词 通 一 些 频 度 很 高 的 词语 ， 
这 些 词语 都 不 具有 专业 性 


m 种 子 术 语 表 (set of seed terms) : 使 用 人 工 从 语料库 中 选 出 反映 
专业 概念 的 术语 作为 种 子 术 语 (seedterm) ， 构 成 种 子 术语 表 。 


m 结构 词语 表 (set of scheme words) : 这 些 结构 词 语 一 般 是 介词 


或 限定 词 之 类 的 虚词 ， 它 们 在 语料库 中 往往 与 种 子 术 语 一 起 出 现 。 


b. 发 现 模块 (discovery module) : 使 用 机 器 自动 学 习 中 的 “ 自 
举 ” (bootstrap) 方法 ， 一 步 一 步 地 扩充 从 预 熟 悉 模块 中 得 到 的 种 子 术 
语 的 规模 ， 从 而 发 现 更 多 的 术语 。 


在 用 于 术语 发 现 的 上 述 五 种 方法 中 ， 前 两 种 方法 都 不 使 用 统计 ， 
假定 文本 中 符合 条 件 的 全 部 词语 都 是 候选 术语 ， 哪 怕 只 出 现 一 次 的 “ 军 
用 词语 ” (hapax legomenon) ， 只 要 它们 符合 条 件 ， 也 都 在 候选 术语 的 
考虑 范围 之 内 。 这 两 种 方法 是 非 统 计 的 方法 。 使 用 这 样 的 非 统 计 方 法 
时 ， 术 语 的 判定 离 不 开 用 户 ， 需 要 给 用 户 提 供 交 互 工 具 ， 以 便 用 户 对 
于 候选 术语 进行 选择 。 后 面 三 种 方法 都 要 使 用 统计 来 进行 过 滤 或 排 
序 ， 在 这 样 的 情况 下 ， 考 虑 候选 术语 出 现 的 上 下 文 环境 就 显得 非常 重 
要 了 ， 因 为 统计 的 数据 需要 在 具体 的 文本 或 语料库 中 才 可 以 计算 出 
BE, 离开 了 具体 的 文本 或 语料库 ， 不 可 能 进行 任何 的 统计 ， 当 然 也 就 
不 可 能 发 现 术语 了 。 


术语 辨识 主要 是 做 术语 的 目 动 标 引 。 


传统 的 自动 标 引 主要 使 用 “ 词 口 袋 ”(bag-of-words) 的 方法 ， 这 种 
方法 只 古人 简单 地 把 所 标 引 的 单词 直接 地 与 它们 所 在 的 文本 联系 起 来 ， 
基本 上 不 考虑 这 些 单 词 的 语言 结构 信息 。 这 征 “ 词 口袋 " 扩 术 的 缺点 。 
如 果 在 术语 的 目 动 标 引 时 ， 要 求 保 持 术 语 中 单词 的 顺序 ， 还 要 求 反映 
出 术语 的 结构 以 及 术语 中 单词 之 间 的 依存 关系 ， 这 时 ， 人 简单 的 * 词 口 
伐 ” 技 术 就 显得 不 足 了 了。 为 了 反映 单词 的 语言 结构 信息 ， 需 要 对 于 术语 
进行 自动 天 析 。 术 语 上 自动 剖析 的 深度 取决 于 具体 的 需要 ， 可 以 进行 浅 
层 的 句法 副 析 ， 也 可 以 进行 比较 深层 的 句法 分 析 。 


根据 上 自动 训 析 的 深度 ， 术 语 的 目 动 标 引 可 以 分 为 基于 浅 层 句 法 剖 
析 的 目 动 标 引 和 基于 深层 句法 谢 析 的 目 动 标 引 。 基 于 浅 层 句法 剖析 的 


自动 标 引 使 用 的 标 引 技术 有 文本 简化 (text simplification) 、 基 于 窗口 
的 关键 词 识别 (window-based keyword recognition) 等 。 基 于 深层 句法 
剖析 的 自动 标 引 使 用 的 标 引 技术 有 基于 依存 关系 剖析 的 目 动 标 引 和 基 
于 转换 削 析 的 目 动 标 引 。 下 面 介绍 三 种 简单 的 术语 目 动 标 引 方 法 。 


(1) 文本 简化 方法 : 在 1983 年 ， 迪 容 (M. Dillon) 和 葛 莱 依 (A. 
S. Gray) 研制 的 FASIT 系 统 使 用 了 文本 简化 的 方法 引 !|。FASIT 的 自动 
标 引 分 两 步 : 


a. 标注 与 模式 匹配 : FASIT 首 先 使 用 后 缀 规则 和 不 规则 后 绥 的 特例 
表 对 于 文本 进行 形态 分 析 ， 对 有 天 的 词语 进行 词类 标注 ， 然 后 把 分 析 
得 到 的 带 有 词类 标记 的 文本 与 表示 术语 结构 的 句法 模式 〈 例 如 ，N， 
N+N, Proper-noun+N 等 ) 相 匹配 ， 得 到 有 关 术 语 的 句法 模式 的 标 引 。 

b. 标 引 合并 : 使 用 文本 简化 技术 ， 把 得 到 的 句法 模式 标 引进 行 合 
并 ， 合 并 步骤 如 下 : 

一 一 删除 停 用 词 “如 ， 人 介词， 连接 词 ， 普 通 名 词 ) ; 


词根 还 原 ; 


词 序 重组 。 


这 样 ， 便 可 以 得 到 市 有 句法 模式 的 术语 标 引 。 


(2) 名 词 词组 的 歧义 消解 方法 : 在 1991 年 ， 伊 万 斯 (D. A. 
Evans) 人 研制 的 CLARIT 系 统 tsl， 把 自然 语言 处 理 中 的 形态 分 析 技 术 、 
浅 层 剖析 技术 和 统计 过 滤 技 术 结 合 起 来 ， 对 于 名 词 短语 进行 层 义 消 
解 。 首 先 ， 对 文本 进行 形态 分 析 ， 使 名 词 短 语 术 语 中 的 单词 得 到 没有 


歧义 的 词类 标记 。 然 后 对 所 得 到 的 带 有 词类 标记 的 名 词 短语 术语 进行 
句法 谢 析 ， 得 到 候选 的 名 词 短 语 结构 。 例 如 ， 和 名 词 短语 the redesigned 
R3000 chips from DEC (来 自 DEC 公 司 的 重新 设计 R3000 的 芯片 经 过 
这 样 的 剖析 之 后 ， 得 到 


[the] pe [redesigned R3000| pmoq [chips| peaq | from 


DEC| PostMo 


其 中 ，Det 表 示 限 定 词 ，Head 表 示 中 心 词 ，PreMod 表 示 前 修饰 语 ， 
PostMod 表 示 后 修饰 语 。 


剖析 得 到 的 候选 术语 再 根据 统计 特征 进行 排序 。 


在 使 用 CLARIT 时 是 不 考虑 结构 收 义 的 ， 因 此 ， 标 引 的 结果 还 需要 
进一步 使 用 基于 语料库 的 技术 进行 结构 消 歧 ， 得 到 没有 结构 卜 义 的 标 
als 


(3) 用 于 自动 标 引 的 句法 剖析 方法 : 有 一 些 研究 者 使 用 句法 剖析 
井 从 文本 中 抽取 名 词 短语 术语 。 痢 析 时 术语 的 语法 关系 的 和 表示 方法 主 
要 有 两 种 ， 一 种 是 基于 结构 成 分 的 分 析 方 法 ， 一 种 是 基于 依存 关系 的 
分 析 方 法 。 


a. 基于 结构 成 分 的 分 析 方 法 : 在 1995 年 ， 斯 特 拉 科 夫 斯 基 (T. 
Strzalkowski) 研制 的 TIP 谢 析 器 ， 使 用 基于 结构 成 分 分 析 法 ， 可 以 产 
生出 词组 型 术语 的 树 形 结构 ， 在 树 形 结构 中 ， 表 示 出 中 心 词 (head) 
和 它 有 关 的 论 元 (argument) [区 。 例 如 ， 名 词 短语 the former Soviet 
president (前 苏联 的 总 统 ) 被 分 析 为 如 下 的 树 形 结构 : 


[np [y president] |p, the} [Ag [former] | | ag 


[Soviet] | | 


TTP £r 28 ze Ti 8 OS LR] RR AOR IIT AY, TEA “Ta SB a 
iE" (Linguistic String Grammar) 的 理论 ， 话 法 范畴 主要 来 自 《 和 牛津 高 
级 英语 学 习 词 典 》 (Oxford Advanced Learner Dictionary) 。 


由 TTP 谢 析 亏 分 析 得 出 的 词组 型 术语 ， 可 以 用 来 从 文本 中 目 动 地 生 
成 术语 标 引 。 由 于 经 过 标 引 后 的 这 些 术 语 都 市 有 人 句 法 结构 的 信息 ， 对 
于 机 瑚 翻译 、 信 息 检 索 等 目 然 语言 处 理 是 非常 有 用 的 。 


在 1990 年 ， 梅 深 乐 耳 (Metzler) 设计 了 成 分 对 象 剖 析 器 COP 
(Constituent Object Parser) ， 这 个 剖析 器 只 使 用 二 元 的 依存 关系 信 
已 ， 由 于 树 形 结构 中 的 文 配 关系 具有 传递 性 ， 一 个 具有 n 层 依存 关系 的 
树 形 结构 可 以 转换 成 具有 n-1 层 的 二 叉 树 形 结构 ， 这 样 ， 所 有 的 树 形 结 
构 都 可 以 变 成 二 元 的 树 形 结构 。 例 如 ，small liberal arts college for 
scared junior (为 胆 小 的 少年 办 的 小 型 的 自由 艺术 学 校 ) 可 以 被 分 析 为 
如 下 的 树 形 结构 : 


[* [small * [liberal * [arts *college| | | [for * [scared 


*junior | | | 


> 
> 


liberal 人 * junior 
arts * college 


图 16.1 ”表示 二 元 关系 的 二 又 树 


其 几何 形状 为 : 


其 中 的 每 一 个 子 树 都 是 二 元 的 ， 标 有 * 号 的 子 树 是 中 心 语 ， 没 有 * 
号 的 成 分 是 附加 语 ， 根 结 点 上 没有 加 任何 的 标记 ， 子 树 [for * [scared 
*junior] | 是 修饰 college 的 ， 也 不 代 任 何 的 标记 。 从 这 个 二 又 树 中 可 以 
看 出 ， 中 心 语 标 记 * 是 具有 继承 关系 的 ， 它 们 可 以 由 下 层 传 递 到 上 层 。 


b. 基于 依存 关系 的 分 析 方 法 : 在 1988 年 ， 施 瓦尔 欧 (Schwarz) W 
制 了 COPSY 系 统 ， 这 个 系统 使 用 法 国语 言 学 家 泰 尼 埃 (L. Tesniere) 提 
出 的 “依存 语法 ” (dependency grammar) H9), ， 对 名 词 短 语 术语 进行 自 
动 冲 析 ， 齐 析 的 结果 要 表示 出 名 词 短 语 术语 中 的 依存 关系 。 例 如 ， 
problems of fresh water storage and transport in containers or tanks (用 和 集 
装 箱 或 水 箱 储 存 和 运输 的 新 鲜 水 的 问题 ) ZT COPSY AMT Zia, ATLA 
得 到 如 下 的 依存 关系: 


fresh 一 water 


water 一 Storage 一 Problem water transport ^ problem 
container — storage container transport 
tank > storage tank transport 
Rr, “Ss " NREL”, WP. fresh waterz&zrfreshfK (f T water ° 
这 些 依存 关系 是 根据 名 词 短 语 术语 中 单词 之 间 的 结构 特性 建立 起 来 


的 ， 征 依存 分 析 的 结果 。 


(4) 术语 变 体 的 识别 方法 : 一 个 术语 往往 会 存在 若干 个 不 同 的 变 
fk (variation) ， 因 此 ， 在 术语 的 计算 机 上 自动 处 理 中 ， 还 要 研究 术语 变 
体 的 识别 问题 。1999 年 ， 雅 克 曼 (C. Jacquemin) 研制 了 FASTR 系 统 
LGI ， 使 用 结构 转换 与 词汇 关系 结合 的 方法 来 识别 术语 变 体 。 术 语 的 词 
汇 关 系 可 以 反映 在 形态 的 联系 上 (例如 ， 具 有 相同 的 词根 的 术语 在 形 
SARA) ， 也 可 以 反映 在 语义 的 联系 上 (例如 ， 同 义 术 语 ， 反 义 术 
iR) 。FASTR 可 以 识别 出 malignancy in orbital tumours (Hi 55 AAR AY A 
TE) 是 malignant tumour 〈 恶 性 的 肿瘤 ) 的 变 体 ， 因 为 malignancy GE 
Tt) Fi malignant (恶性 的 ) 在 形态 上 相关 ， 它 们 都 包含 词 干 
malignan- , Wm H., malignancy in orbital tumours 的 结构 模式 为 
N+Prep+Adj+N ， 这 个 模式 与 FASTR 系 统 定 义 过 的 名 词 短 语 模式 
N+Prep+Adj+N 相 匹配 ， 据 此 可 以 判断 它 是 一 个 词组 型 术语 ， 是 术语 
malignant tumour 《恶性 的 肿瘤 ) 的 变 体 。 这 样 的 术语 变 体 应 当成 为 术 
语 的 自动 发 现 和 自动 辨识 关注 的 对 象 它 ] 。 


术语 的 变 体 有 四 类 : 形态 变 体 (morphological variation) 、 句 法 变 


体 (syntactic variation) 、 语 义 变 体 (semantic variation) 、 扩 展 变 体 


(expanded variation) 。 分 述 如 下 : 


m 形态 变 体 (morphological variation) : 有 形态 变化 或 派生 关系 的 
术语 变 体 叫做 形态 变 体 。 例 如 ，measure (测量 ) 和 measurement (‘ill 
=) 有 形态 上 的 联系 ，measurement 是 measure 加 后 级 -ment 构 成 的 ， 
measure 和 measurement 之 则 有 派生 关系， 它们 是 术语 的 形态 变 体 ;cell 

(细胞 ) 和 cells (“细胞 ”的 复数 形式 ) 之 间 也 有 形态 上 的 联系 (一 个 是 
单数 形式 ， 一 个 是 复数 形式 ) ， 也 是 术语 的 形态 变 体 。 类 似 地 ， 


analysis method 一 analytic method 一 analytical method (分 析 方 法 ) 


cell component 一 cellular component (细胞 成 分 ) , cell differentiation 
一 cellular differentiation 《细胞 分 化 ) , formula — formulae (公式 ) 
accuracy 一 accuracies (精确 度 ) 都 是 术语 的 形态 变 体 。 在 术语 的 。 在 
术语 的 自动 发 现 和 上 自动 辨识 中 ， 必 须 处 理 这 些 形 态 变 体 ， 否 则 就 会 影 
响 系 统 的 召回 率 (recall) ° 


m 句法 变 体 (syntactic variation) : 与 句法 结构 有 关 的 术语 变 体 叫 
做 句法 变 体 。 例 如， comprehension of language 是 language 
comprehension 的 句法 变 体 ， 前 者 的 句法 结构 是 Ntfof+N， 而 后 者 的 句法 
结构 是 N+N。 类 似 地 ，disease of the abdomen 一 abdominal disease (4 
RAJE) , fraction of cell — cells of fractions (细胞 分 离 ) , thresholds of 
perception — perception thresholds (感知 阔 限 ) ，autoimmune disease 一 
disease with autoimmune (自身 免疫 疾病 ) 也 都 是 术语 的 句法 变 体 。 在 
术语 的 目 动 发 现 和 自动 辨识 中 ， 必 须 处 理 这 些 句 法 变 体 ， 否 则 就 会 影 
响 系 统 的 召回 率 (recall) ° 


m 语 义 变 体 (semantic variation) : 有 语义 联系 的 术语 变 体 叫 做 语 
义 变 体 。 例 如 ，speech comprehension (口语 理解 ) Æ language 
comprehension (语言 理解 ) 的 语义 变 体 ， 因 为 speech (口语 ) 和 


language (语言 ) 有 语义 上 的 联系 ， 它 们 是 近 义 术 语 。 类 似 地 ， 

response rate 一 reaction rate (反应 速度 ) ，anterior part 一 anterior 

segment (前 部 ) 也 都 是 术语 的 语义 变 体 。 在 术语 的 上 自动 发 现 和 自动 辨 

识 中 ， 必 须 处 理 这 些 语义 变 体 ， 否 则 束 会 影 啊 系 统 的 召回 率 
(recall) 。 


mj HÉZF(A (expanded variation) : 由 基本 术语 扩展 而 成 的 术语 叫 
做 术语 的 扩展 变 体 。 术 语 扩 展 的 手段 有 修饰 (modification) 、 并 列 
(coordination) 、 结 构 转 换 (structural transformation) 等 。 术 语 经 过 
扩展 之 后 ， 其 含义 可 能 会 发 生变 化 ， 但 是 ， 在 术语 的 自动 发 现 中 ， 这 
种 扩展 术语 与 基本 术语 有 和 密切 的 联系 ， 对 于 目 动 发 现 具有 参考 价值 ， 
仍然 应 当 是 术语 发 现 研 究 的 对 象 。 例 如 ，abnormal chromosome ( 非 正 
常 染色 体 ) 通过 在 chromosome 前 面 附加 修饰 语 X 扩 展 而 成 的 abnormal X 
chromosome ( 非 正常 XxX 染色 体 ) 就 是 术语 abnormal chromosome 的 扩展 
变 体 ，axillary vein ( 腑 静脉) 通过 在 vein 的 前 面 并 列 artery and 的 方式 扩 
展 而 成 的 axillary artery and vein ( 腋 动 脉 和 腋 静脉 ) 就 是 术语 axillary 
Vein 的 扩展 变 体 ，isolated cell 〈 离 体 细胞 ) 通过 结构 转换 之 后 成 为 句子 
cells were isolated (HEBAT) ， 这 个 句子 与 术语 isolated cell 有 密切 
的 联系 ， 对 于 术语 的 目 动 发 现 有 价值 ， 也 可 以 看 成 是 术语 isolated cell 的 
扩展 变 体 。 类 似 地 ，benign neoplasm ( REZ 77) —neoplasm were 
benign (长 生物 是 良性 的 ) ，hypothesis test (假设 检验 ) 一 test this 
hypothesis (检验 这 个 假设 ) 也 都 可 以 看 成 是 术语 的 扩展 变 体 。 在 术语 
的 目 动 发 现 和 目 动 辨识 中 ， 必 须 处 理 这 些 扩 展 变 体 ， 否 则 就 会 影响 系 
统 的 召回 率 (recall) ° 


FASTR 是 为 受 控 标 引 而 研制 的 。 这 个 系统 首先 输入 一 个 权威 性 术 
语 表 ， 把 它 转换 成 可 计算 的 数据 ， 并 有 目 动 生 成 这 些 术 语 的 候选 变 体 。 


然后 再 把 这 些 候选 变 体 与 语料库 中 的 数据 相 比较 ， 最 后 检索 出 真正 的 
术语 变 体 。 


上 上 面 介绍 的 部 是 单 语言 的 术语 日 动 处 理 ， 下 面 我 们 介绍 双语 言 的 
术语 自动 处 理 。 


双语 言 的 术语 目 动 发 现 一 般 要 分 两 步 走 。 第 一 步 是 术语 抽取 ， 在 
双语 言 的 语料库 中 分 别 进行 术语 目 动 抽取 ， 找 出 每 一 种 语言 中 的 术 
语 ; 第 二 步 是 术语 对 齐 (alignment) ， 找 出 在 不 同 语言 之 间 术 语 的 对 


双语 言 的 语料库 中 术语 的 对 齐 有 不 同 的 方法 。 郭 溪 (E. Gaussier) 

的 方法 是 ， 先 进行 句子 的 对 齐 ， 然 后 再 在 已 经 对 齐 的 句子 中 进行 术语 
对 齐 [型 | ， 这 是 一 种 先 处 理 大 的 语言 单位 ， 再 处 理 小 的 语言 单位 的 “从 
大 到 小 ”方法 。 但 是 ， 赎 尔 (D. Hull) 则 提出 了 不 同 的 方法 。 他 先进 行 
单词 型 术语 对 齐 ， 再 进行 术语 抽取 ， 最 后 进行 词组 型 术语 的 对 齐 。 单 
词 型 术语 的 对 齐 和 词组 型 术语 的 对 齐 都 使 用 了 无 回溯 的 “贪心 算 
ik" (greedy algorithm) 19! 。 这 是 一 种 先 处 理 小 的 语言 单位 ， 后 处 理 
大 的 语言 单位 的 “从 小 到 大 ”方法 。 


计算 术语 学 是 一 个 新 兴 的 术语 学 的 学 科 ， 这 个 学 科 的 出 现 ， 反 映 
了 信息 网 络 时 代 对 于 术语 学 研究 的 新 要 求 ， 是 信息 网 络 时 代 对 于 术语 
学 的 挑战 ， 值 得 我 们 密切 关注 。 


关于 术语 的 目 动 发 现 和 术语 的 自动 辨识 方法 ,今后 我 们 还 可 以 研 
究 如 下 问题 ; 


a 建立 大 规模 的 专业 语料库 ， 开 展 专业 语料库 的 研究 ， 进 行 基于 语 
料 库 的 语义 标注 研究 和 语义 关系 自动 获取 的 研究 。 


m 研究 专业 语料库 构建 的 新 技术 。 


m 企 大 规模 的 专业 语料库 中 ， 获 取 更 多 的 语义 学 资源 和 形态 学 资 
源 ， 以 便 为 术语 或 术语 变 体 的 上 自动 发 现 提供 可 菲 的 数据 。 

m 把 基于 规则 的 方法 、 基 于 统计 的 方法 以 及 机 絮 学 习 的 方法 结合 起 
来 ， 人 研究 术语 发 现 和 术语 辨识 的 新 的 “混合 方法 ” (hybrid solution) [20] 


m 对 专业 语料库 进行 加 工 ， 使 它 带 有 更 加 丰富 的 信息 ， 使 普通 
EFX” (context) 变 成 * 富 语 境 ” (rich context) ， 使 语料库 中 的 上 
下 文 更 具有 解释 性 和 说 明 性 ， 把 一 般 上 下 文中 的 文本 信息 和 富 语 境 中 
包含 的 结构 信息 结合 起 来 ， 进 行 术 语 的 发 现 和 辨识 。 


加 建立 更 加 完善 的 交互 界面 ， 以 便 专 业 人 员 更 方便 地 对 候选 术语 进 
行人 工 判定 。 


计算 术语 学 的 研究 要 以 真实 的 科学 技术 文本 为 依据 ， 要 对 于 文本 
中 的 术语 和 多 种 多 样 的 术语 变 体 进 行 深入 的 描 写 和 分 析 ， 这 样 ， 术 语 
学 的 研究 就 不 能 只 停留 在 规范 (normalization) 的 平面 上 ， 而 要 逐步 地 
推进 到 描写 (description) 的 平面 上 。 在 信息 网 络 时 代 ， 术 语 学 正在 经 
历 着 从 传统 的 “规范 术语 学 ” (prescriptive terminology) 到 现代 的 “描写 
术语 学 ” (descriptive terminology) 的 转化 过 程 。 这 是 术语 学 发 展 的 一 
个 新 的 趋势 。 


可 以 看 出 ， 计 算术 语 学 具有 非常 广阔 的 发 展 前 景 ， 在 自然 语言 计 
算 机 处 理 的 研究 中 ， 我 们 应 当 关注 计算 术语 学 这 个 新 兴学 科 的 发 展 ， 
推动 我 国术 语 学 研究 的 现代 化 进程 ， 使 术语 学 这 个 传统 的 学 科 ， 在 信 
息 网 络 时 代 大 放 异 彩 。 


本 章 参考 文献 


1. 汉 志 伟 ， 一 个 新 兴 的 术语 学 科 一 一 计算 术语 学 D], €& CONS 
标准 化 与 信息 技术 》，2008 年 第 4 期 ， 4 一 9。 


2. Felber H, Einige Grundfragen der Terminologiewissenschaft aus der 


Sicht der Allgemainen Terminologielehre [M] , Inforterm , 12-86. 


3. Feng Zhiwei, Hybrid Approaches for Automatic Segmentation and 
Annotation of Chinese Text Corpus |J] , International Journal of Corpus 


Linguistics , Vol. 6 (Special issue) , 2001. 


4. Jacquemin, Ch. Spotting and Discovering Terms through Natural 
language Processing |M] , The MIT Press, 2001. 


5. Picht, H. and Draskau, J. Terminology: An Introduction [M] , The 
University of Surrey, 1985. 


6. Rondeau G, Introduction de la Terminologique | M | , Contre 
Educatif et Culturel Inc., 1981. 


[1] Feng Zhiwei, Analysis of Formation of Chinese Terms in Data 


Processing, Fraunhofer Gesellschaft, Stuttgart, 1988. 
[2] 冯 志 伟 ，《 现 代 术 语 学 引 论 》， 语 文 出 版 社 ，1997 年 。 


[3] Feng Zhiwei, GLOT-C: Chinese Terminological Data Bank for 
Data Processing, Fraunhofer Gesellschaft, Stuttgart, 1988. 


[4] D. Bourigault, Ch. Jacquemin, Marie[]Claude L'Homme, Recent 
Advances in Computational Terminology, John Benjamins Publishing 


Company, 2001. 


[5] Feng Zhiwei, Chinese Character Index for Chinese Terms in GLOT- 
C, Report in Fraunhofer Gesellschaft, Stuttgart, 1988. 


[6] Christian Jacquemin, Spotting and Discovering Terms through 


Natural Language Processing, The MIT Press, 2001. 


[7] A. Lauriston, Automatic recognition of complex terms: problems 
and the TERMINO solution, Terminology , 1 (1) , 147-170, 1995. 


[8] D. Bourigault, LEXTER: a natural language tool for terminology 


extraction, Proceedings of the 7^ EURALEX International Congress , 771- 
779, 1996. 


[9] B. Daille, Study and implementation of combined technique for 
automatic extraction of terminology, In The balancing Act: Combining 


Symbolic and statistical Approaches to language , MIT Press, 49-66, 1996. 


[10] F. Smaja, Retrieving collocation from text: Xtract, Computational 
Linguistics , 19 (1) , 143-177, 1993. 


[11] C. Enguehard and L. Pantera, Automatic natural acquisition of a 


terminology, Journal of Quantitative Linguistics , 2 (1) , 27-32, 1993. 


[12] M. Dillon and A. S. Gray, FASIT: a fully automatic syntactically 
based indexing system, Journal of American Society for Information Science 
,34 (2) , 99-108, 1983. 


[13] D. A. Evans and C. Thai, Noun[]phrase analysis in unrestricted 


text for information retrieval, Proceedings of the 34^ Annual Meeting of the 
Association for Computational Linguistics (ACL'96) , 17-24, 1996. 


[14] T. Strzalkowski, Natural language Information Retrieval, 
Information Processing and Management , 31 (3) , 397-417, 1995. 


[15] 关于 依存 语法 ， 可 参看 冯 志 伟 《现代 语言 学 流派 》 (修订 
Æ) ， 陕 西 人 民 出 版 社 ，1999 年 。 


[16] C. Jacquemin, Syntagmatic and paradigmatic representation of 


term variation, Proceedings of the 37 Annual Meeting of the Association of 
Computational Linguistics (ACL'99) , 341-348, 1999. 


[17] Ch. Jacquemin, Spotting and Discovering Terms through Natural 
language Processing, The MIT Press, 2001. 


[18] E. Gaussier, Flow network models for word alignment and 
terminology extraction from bilingual corpora, Proceedings of the 36" 
Annual Meeting of the Association of Computational Linguistics and 17^ 


International Conference on Computational Linguistics ( COLING- 
ACL'98) , 444-450, 1998. 


[19] D. Hull, Automating the construction of bilingual terminology 
lexicons, Terminology , 4 (2) , 225-244, 1997. 


[20] Feng Zhiwei, Hybrid Approaches for Automatic Segmentation and 
Annotation of Chinese Text Corpus , International Journal of Corpus 


Linguistics , Vol. 6 (Specialissue) , 2001. 


第 十 七 章 ”计算 机 辅助 语言 教学 和 
语言 测试 


自然 语言 处 理 拉 术 还 可 以 应 用 于 语言 教学 和 语言 测试 中 ， 这 是 自 
然 语 言 处 理 拉 术 应 用 的 一 个 重要 方面 。 


“计算 机 辅助 语言 教学 ” (Computer Assisted Language Learning , 
简称 CALL) 是 指 在 语言 教学 中 ， 按 照 人 们 事先 安排 好 的 语言 教学 计 
划 ， 使 用 计算 机 进行 课堂 教 学 和 辅助 课外 操练 。 计 算 机 辅助 语言 测试 

(Computer Assisted Language Test， 和 人 简称 CALT) 是 指 在 语言 测试 中 使 
用 计算 机 来 辅助 出 题 、 考 试 、 评 分 、 进 行 试 卷 分 析 及 成 绩 反 馈 等 。 


本 章 介绍 计算 机 辅助 语言 教学 和 语言 测试 。 


pT ”计算 机 辅助 语言 教学 


“计算 机 辅助 语言 教学 ” (Computer Assisted Language Learning , 
简称 CALL) 是 “计算 机 辅助 教学 ” (Computer Assisted Learning， 简 称 
CAL) 的 一 个 领域 。 


为 了 帮助 读者 理解 CALL 的 基本 原理 和 方法 ， 我 们 有 必要 介绍 一 
下 从 CAL 到 CALL， 发 展 历程 。 


在 电子 计算 机 问世 之 初 ， 就 有 人 设想 把 它 用 于 教学 。 在 20 世 纪 50 
年 代 和 60 年 代 之 交 ， 美 国 就 开始 研究 “计算 机 辅助 教学 ” (Computer- 
Assisted Learning， 简 称 CAL) 的 问题 了 。 


美国 最 早 开始 CAL 试 验 的 是 [BM 公司 的 沃 斯 顿 研究 中 心 。 该 中 心 
于 1958 年 设计 了 第 一 个 计算 机 辅助 教学 系统 ， 利 用 一 台 IBM650 计 算 机 
连接 一 台电 传 打 字 机 来 教 小 学 生 学 习 二 进 制 算 术 ， 并 能 根据 小 学 生 的 
要 求 自动 地 生成 练习 题 。 


1959 年 ， 美 国 伊 利 诺 依 大 学 人 研制 出 PLATO 计 算 机 辅助 教学 系统 

( Programmed Logic for Automatic Teaching Operation ， 简 称 

PLATO) ， 该 系统 在 CDC 计 算 机 公司 的 协助 下 ， 经 过 多 年 的 努力 ， 从 

一 次 只 能 处 理 一 个 终端 的 PLATO-I 系 统 发 展 到 带 有 四 百 多 个 终端 的 
PLATO-I 系 统 ， 可 以 讲授 几 百 种 课程 。 


美国 斯 坦 福 大 学 从 1963 年 开始 ， 利 用 计算 机 讲授 逻辑 学 导 轮 、 集 
合 论 、 程 序 设 计 、 俄 语 、 德 语 等 课程 ， 并 与 BM 公司 合作 ， 在 1966 年 
研制 出 IBM1500 教 学 系统 ， 这 个 系统 除了 能 开设 数理 逻辑 、 多 种 外 国 
语 、 哲 学 、 数 学、 首 乐 理论 等 课程 之 外 ， 还 有 一 些 为 小 学 生 和 八 吧 学 


生 准 备 的 课程 ， 提 供 全 国 性 服务 。 


1971 年 ， 美 国 德 殉 了 萨 斯 大 学 与 犹他 州 的 杨 伯 翰 大 学 (Brigham 
Young University) 和 梅 特 (MITRE) 公司 合作 ， 设 计 出 TICCIT 计 算 机 
辅助 教学 系统 (Time-shared Interactive Computer Controlled Information 
Television， 简 称 TICCIT) ， 这 个 系统 以 电视 技术 为 基础 ， 配 合 两 台 
NOVA-800 小 型 计算 机 ， 带 有 75 浪 字 广 的 磁盘 存 迪 器 ， 终 端 为 经 过 改 
闭 的 配 有 键盘 的 彩色 电视 机 ， 其 主机 通过 同 轴 电 绕 与 128 台 彩色 电视 机 
终端 相连 接 。TICCIT 系 统 主要 用 于 社会 大 学 的 数学 和 英语 教学 。 


加 拿 大 、 英 国 、 日 本 等 国 也 开展 了 CAL 的 研究 。 加 拿 大 国家 研究 
院 、 安 大 略 教育 研究 所 和 女王 大 学 等 11 所 大 联合 开展 计算 机 辅助 语言 
教学 系统 CAN 的 研制 ， 开 发 了 数学 、 工 程 、 医 学 、 商 业 等 学 科 的 课件 
(course ware) 。 英 国 在 开放 大 学 中 推广 使 用 计算 机 辅助 教学 ， 开 放 
大 学 有 280 个 学 习 中 心 ， 各 个 学 习 中 心 都 设 有 终端 ， 通 过 全 国 计 算 机 网 
络 与 该 大 学 的 计算 中 心 相连 ， 为 学 生 解 答 各 种 问题 。 日 本 机 器 工业 促 
进 会 研制 了 一 个 计算 机 辅助 教学 系统 ， 该 系统 能 同时 控制 30 个 学 习 终 
端 ， 开 设 了 计算 机 原理 、 计 算 机 语言 、 数 控 机 床 等 课程 。 


我 国 于 20 世 纪 80 年 代 开 始 研究 计算 机 辅助 教学 系统 。 华 东 师 范 大 
学 现代 教育 技术 研究 所 研制 了 计算 机 辅助 BASIC 语 言 教 学 系统 
MCBBI， 通 过 这 个 系统 学 习 BASIC 语 言 的 学 生 ， 都 能 达到 用 BASIC 语 
言 独 立地 编制 程序 的 水 平 。 此 外 ， 中 山大 学 和 西安 交通 大 学 也 研制 了 
一 个 BASIC 语 言 教 学 系统 ， 中 国 科 学 技术 大 学 人 研制 了 一 个 PASCAL 语 
言 教学 系统 ， 大 连 工学 院 研 制 了 工程 力学 解 题 模拟 系统 ， 云 南 师范 大 
学 研制 了 计算 机 辅助 代数 解 题 系统 。 


北京 信息 工程 学 院 研 制 成 功 2000 系 列 计算 机 辅助 教学 系统 。 这 个 
系统 包括 了 教学 、 指 导 、 管 理 和 开发 维护 等 部 分 ， 有 BASIC 语 言 和 
PASCALE E PI ] 教 学 课件 ， 可 以 提供 学 生 目 学 和 教师 指导 两 种 学 习 
方式 。 此 外 ， 该 系统 还 具有 教学 管理 和 选 题 、 评 分 等 功能 。 


在 计算 机 辅助 教学 CAL 的 诸多 领域 中 ， 与 语言 学 最 为 密切 的 是 “ 计 
算 机 辅助 语言 教学 ” ( Computer Assisted Language Learning , 
CALL) ， 在 进行 计算 机 辅助 语言 教学 CALL 的 时 候 ， 计 算 机 要 按照 人 
们 事先 安排 好 的 语言 教学 计划 进行 课堂 教学 和 辅助 课外 操练 。 前 面 介 
绍 过 的 PLATO 系 统 除了 进行 一 般 的 计算 机 辅助 教学 之 外 ， 也 能 进行 计 
算 机 辅助 语言 教学 ，PLATO 可 以 讲授 汉语 、 英 语 、 法 语 、 俄 语 、 硕 脐 


语 、 拉 了 丁 语 、 西 班 牙 语 和 世界 语 等 八 种 语言 课程 。 斯 坦 福 大 学 的 系统 
也 可 以 讲授 俄语 、 德 语 等 语言 课程 ，TICCIT 系 统 也 可 以 进行 英语 教 
学 。 在 这 个 时 期 ， 还 设计 了 一 些 用 于 CALL 的 教学 软件 ， 如 
ECLIPSE，SEQUITUR 等 ， 这 些 软件 对 于 计算 机 硬件 的 要 求 不 高 ， 程 
序 也 比较 容易 掌握 ， 了 逐渐 在 CALL 教 学 中 普及 开 来 。 


当时 从 事 CALL 的 一 些 专 家 ， 如 Higgins, Tim Jones, Graham, Tony 
Williams 等 ， 他 们 原来 都 是 语言 教师 ， 但 是 ， 他 们 在 实践 中 更 新 了 知 
识 ， 很 快 掌握 了 CALL 技 术 ， 成 为 了 CALL 教 学 的 开创 人 。 


CALL 是 一 种 新 型 的 语言 教学 方式 ， 是 对 于 传统 语言 教学 方式 的 
具有 重大 意义 的 改革 。 美 国 的 语言 教学 在 第 一 次 世界 大 战 前 后 ， 主 要 
采用 传统 的 “教授 语法 加 翻译 ”的 方式 ， 培 养 读 和 写 的 能 力 。 在 第 二 次 
世界 大 战 前 后 ， 由 于 录音 机 的 使 用 ,“ 听 说 ”教学 的 方式 应 运 而 生 ， 各 
地 学 校 都 设置 了 语言 实验 室 。 由 于 社会 语言 学 、 心 理 语言 学 、 计 算 语 
言 学 这 些 边缘 学 科 的 发 展 ， 人 们 对 于 语言 交际 有 了 更 深 的 认识 ， 在 外 
语 教学 中 更 加 强调 人 与 人 之 间 的 语言 交际 本 领 及 其 心理 、 文 化 基础 。 
在 这 种 情况 下 ， 计 算 机 束 成 了 一 种 非常 适合 的 语言 教学 的 培训 工具 ， 
因此 ，CALL 受 到 了 语言 教学 工作 者 的 普 过 欢迎 。 


CALL 一 般 可 以 分 为 四 种 类 型 ; 


OD 讲授 型 ， 计 算 机 向 学 生 提 供 讲 授 的 教材 ， 学 生 通过 计算 机 显示 
屏 上 显示 的 课文 进行 学 习 。 


ORAE: 计算 机 向 学 生 提 供 各 种 练习 题 ， 学 生 即 时 回答 ， 计 算 
机 做 出 评价 ， 并 决定 学 生 有 是 复习 前 一 谋 的 课文 ， 还 是 学 习 下 一 课 。 


(3 模拟 型 利用 计算 机 的 动画 、 语 声 、 图 形 显示 、 图 表 绘 制 等 功 
能 ， 通 过 荧 真 地 模拟 人 们 日 常生 活 的 实际 情景 ， 让 学 生 在 这 种 环境 的 
刺激 和 诱导 下 ， 做 出 恰当 的 语言 反应 。 


讲授 型 、 探 练 型 和 模拟 型 的 计算 机 软件 都 是 “ 诬 


件 ” (courseware) 。 


(工具 型 :由 计算 机 给 语言 教师 的 教学 或 研究 工作 提供 必要 的 智 
力 工 具 ， 它 是 面 问 教师 的 ， 而 不 是 面 癌 学 生 的 。 工 具 型 软件 又 可 以 分 
为 两 类 : 一 类 是 为 教师 编制 上 述 三 种 课件 提供 特殊 的 程序 设计 语言 ， 
称 为 “ 编 关 语言"， 一 类 是 能 给 教师 起 智力 助手 作用 的 软件 ， 例 如 ， 帮 
助教 师 目 动 地 编制 索引 ， 统 计 词 汇 ， 分 析 句 型 ， 拟 出 试题 ， 分 析 考 试 


结果 等 。 


由 于 运行 课件 所 形成 的 计算 机 辅助 语言 教学 环境 ， 在 教育 方面 具 
有 下 面 的 优点 : 


QEFI: 学 生 的 学 习 能 力 上 自然 地 决定 了 课件 运行 的 速度 ， 能 
力 强 的 学 生 可 学 习 得 快 一 些 ， 能 力 差 的 学 生 可 学 习 得 慢 一 些 ， 做 到 
了 “因材施教 ”。 


Qt EM DEE TTA: 计算 机 总 是 耐心 地 、 循 循 善 诱 地 指导 学 
生 学 习 ， 鼓 励 学 生 达 到 预期 的 效果 ， 从 不 会 表露 出 任何 的 喜 怒 脓 乐 ， 
这 样 便 大 大 地 减轻 了 学 生 的 心理 负担 。 


(3 课件 能 够 博采众长 ， 吸 收 多 位 专家 和 教师 的 经 验 。 


出 便于 积累 教学 资料 和 保存 学 生 学 习 档 案 。 


工具 型 软件 的 优点 是 能 提高 教师 备 诗 、 教 学 、 研 究 等 活动 的 效 
率 ， 使 他 们 的 精力 集中 到 更 有 创造 性 的 方面 去 。 


CALL 课 件 的 典型 工作 过 程 如 下 : 


计算 机 把 信息 ， 如 课文 、 语 法 说 明 等 ， 通 过 计算 机 显示 屏 设 备 
呈现 在 学 生 面前 ， 让 他 们 了 阅读、 学 习 。 


史 计 算 机 根据 显示 的 教材 ， 向 学 生 提 出 有 关 问 题 ， 让 学 生 作 练 


习 ， 并 等 待 学 生 回答 。 


四 学生 使 用 键盘 等 输入 设备 回答 问题 ， 计 算 机 对 学 生 的 答案 做 
出 “对 "或 < 错 "等 判断 。 


出 如 果 答 案 为 “" 错 ”， 计 算 机 指示 学 生 重 做 ， 或 者 重新 学 习 原 来 的 
课程 ;如 果 答 案 为 "对 ”， 计 算 机 会 对 学 生 给 予 某 种 鼓励 ， 并 转 入 下 一 
步 的 联系 或 学 习 新 的 课文 。 


体现 上 述 功 能 的 CALL 课 件 ， 征 语言 学 家 、 语 言 教 师 、 心 理学 家 
和 计算 机 科学 家 密切 合作 的 产物 。 语 言 学 家 自 和 完 根据 学 科 内 容 提 出 某 
一 课题 的 教材 ， 再 由 语言 教师 指出 学 习 重 点 和 教学 方法 ， 心 理学 家 则 
制定 编写 教学 方案 和 评定 学 习 效 果 的 原则 ， 然 后 由 计算 机 科学 家 把 上 
述 材料 编制 成 课件 ， 经 过 反复 党 示 、 修 改 ， 成 为 投放 技术 市 场 的 谍 
fFe 


CALL 所 需要 的 技术 是 广泛 而 多 样 的 ， 计 算 机 和 信息 处 理 的 许多 
技术 都 可 以 在 CALL 中 大 显 映 手 。 计 算 机 图 象 和 动画 已 经 成 了 课件 的 
重要 组 成 部 分 ， 富 语 合成 促使 计算 机 台 真 地 模仿 教师 的 声音 ， 语 首 识 
别 则 使 学 生 的 口 答 信 息 有 可 能 通过 计算 机 进行 处 理 。 


多 媒体 (multimedia) 技术 是 计算 机 技术 关注 的 热点 之 一 ， 所 谓 
多 媒体 技术 ， 就 是 交互 式 综合 处 理 文本 、 图 形 、 图 像 、 声 音 等 多 种 媒 
体 信 息 ， 使 多 种 信息 之 间 建 立 逻 辑 连 接 ， 集 成 为 一 个 系统 ， 把 计算 机 
技术 、 声 像 技 术 和 通讯 技术 融 为 一 体 。 多 媒体 技术 能 使 信息 传播 者 和 
接受 者 之 间 实 时 地 进行 交换 ， 它 的 集成 性 高 ， 交 互 性 强 。 由 于 多 媒体 
的 数据 类 型 不 仅 包括 文本 ， 而 且 还 包括 仿真 图 像 、 立 体 声 音 啊 、 运 动 
视频 图 像 等 人 类 最 习惯 的 视听 媒体 信息 ， 所 以 ， 多 媒体 技术 为 CALL 
开辟 了 一 个 新 的 天 地 。 在 CALL 教 学 中 ,为 了 便于 学 生 直 接地 疝 计算 
机 输入 答案 或 信息 ， 可 以 使 用 “触摸 屏 ” 设 备 ， 利 用 手指 在 显示 屏 上 的 
触感 而 输入 信息 。 计 算 机 与 光盘 CD-ROM 的 结合 ， 使 得 CALL 所 需要 
的 文字 、 语 音 与 图 像 可 以 存 贮 在 同一 介质 里 ， 应 用 起 来 极为 方便 。 数 
据 库 的 发 展 ， 使 得 课件 、 智 能 助手 等 的 研制 和 利用 有 了 更 好 的 软件 工 
具 。 一 些 著 名 的 CALL 课 件 ， 如 欧洲 的 LINGUA、 澳 大 利 炎 的 CUTSD 
等 ， 都 以 多 媒体 CD-ROM 的 形式 作为 商品 在 世界 各 地 出 售 。 


CALL 人 充分 地 利用 了 计算 机 科学 、 信 息 技 术 、 心 理学 和 目 然 语言 
处 理 的 新 成 果 ， 进 一 步 提 高 了 软件 的 性 能 。 许 多 目 然 语言 处 理 的 方法 
和 技术 都 可 以 在 CALL 中 找到 目 己 的 用 途 。 例 如 ， 将 教师 的 智能 助手 
逐步 扩充 为 一 个 能 够 理解 目 然 语言 的 系统 ， 计 算 机 可 以 目 动 命题 ， 可 
以 对 学 生 的 回答 进行 简单 的 目 动 句 法 分 机 ， 可 以 通过 语音 识别 来 理解 
学 生 用 目 然 语言 口头 形式 做 出 的 回答 ， 并 通过 语音 合成 加 学 生 提供 评 


\ GE Fete FY 
分 结果 ， 等 等 。 


传统 CALL 的 教材 和 各 种 资料 ， 或 者 存储 在 计算 机 的 数据 库 里 
面 ， 或 者 以 课件 的 形式 存储 CD-ROM 里 ， 在 教学 中 ， 语 言 学 习 者 与 计 
算 机 的 交互 ， 主 要 通过 查询 数据 库 或 者 CD-ROM 来 进行 ， 数 据 库 或 
CD-ROM 本 号 只 能 存储 数据 ， 进 行 查 询 的 时 候 ， 一 般 应 用 简单 的 模式 


匹配 技术 就 可 以 得 到 查询 的 结果 ， 尽 管 某 些 CALL 系统 也 使 用 了 自然 
语言 处 理 中 的 自动 分 析 技 术 ， 但 是 ， 自 动 分 析 的 针对 性 不 强 ， 没 有 充 
分 注意 提高 学 习 者 对 于 偏 误 的 意识 ， 而 且 ，CALL 教 学 网 络 基本 上 都 
是 局 域 网 络 ， 网 络 之 间 只 能 在 局 部 范围 内 链接 ， 链 接 的 范围 受到 限 
制 ， 更 不 能 在 非常 广阔 的 范围 甚至 在 全 世界 范围 内 联网 。 所 以 ， 这 样 
的 CALL 的 智能 (Intelligent) 不 强 ° 


如 果 CALL 系 统 采用 自然 语言 处 理 的 技术 来 自动 地 分 析 句 子 ， 对 
于 各 种 提问 和 回答 的 句子 有 和 针对 性 地 进行 自动 分 析 ， 指 出 学 习 者 的 偏 
误 ， 帮 助 他 们 纠正 这 样 的 依 误 ;并 且 在 CALL 中 使 用 互联 网 WWW， 针 
对 不 同学 习 者 的 特点 ， 通 过 WWW 与 语言 学 习 者 进行 个 性 化 的 自由 交 
互 ， 进 一 步 使 用 人 工 智 能 (Artificial Intelligent) 技术 ， 那 么 ， 这 样 的 
CALL 系 统 就 具备 了 较 高 的 智能 ， 就 可 以 把 它 叫 做 “智能 计算 机 辅助 语 
言 教学 系统 ”(ICALL) 。 


CALL 把 语言 教学 与 计算 机 结合 起 来 ，ICALL 又 进一步 把 语言 教 
学 与 人 工 智能 技术 结合 起 来 。 这 些 情 况 清 楚 地 说 明 ， 语 言 教学 这 个 十 
老 的 学 科 正 在 走向 现代 化 ， 语 言 教学 已 经 与 当代 最 先进 的 计算 机 技术 
和 人 工 智 能 技术 结合 起 来 。 这 是 语言 教学 中 具有 历史 意义 的 重大 变 
化 ， 而 这 样 的 变化 ， 是 科学 家 们 长 期 艰苦 探索 的 结 


在 1956 年 夏天 ， 美 国 计 算 机 科学 界 、 信 息 工 程 界 的 儿 位 顶尖 级 学 
者 John McCarthy ， Marvin Minsky ， Claude Shannon 和 Nathaniel 
Rochester 等 汇聚 到 一 起 ， 组 成 了 一 个 为 期 两 个 月 的 研究 组 ， 讨 论 关 于 
他 们 称 之 为 “人 工 智 能 ” (Artificial Intelligence, PRAI 的 问题 ， 从 
此 ,“ 人 工 六 能 ”这 个 新 学 科 便 诞生 了 。 尽 管 有 少数 的 AI 人 研究 者 着 重 于 
研究 随机 算法 和 统计 算法 (包括 概率 模型 和 神经 网 络 ) ， 但 是 大 多 数 
的 AI 人 研究 者 厦 重 人 研究 推理 和 人 逻辑 问题 。 典 型 的 例子 是 Newell 和 Simon 


关于 “人 逻辑 理论 家 ” (Logic Theorist) 和 “通用 问题 解答 器 ” (General 
Problem Solver) 的 研究 工作 。 这 些 简 单 的 系统 把 模式 匹配 和 关键 词 搜 
索 与 简单 试探 的 方法 结合 起 来 进行 推理 和 目 动 问答 ， 它 们 都 只 能 在 某 
一 个 领域 内 使 用 。 在 20 世 纪 60 年 代 末 期 ， 学 者 们 又 研制 了 更 多 的 形式 
逻辑 系统 。 人 工 智能 的 一 个 重要 研究 方向 是 自然 语言 理解 (Natural 
Language Understanding， 人 简称 NLU) 。 由 于 人 类 的 智能 活动 与 语言 有 
密切 的 关系 ， 语 言 往往 成 为 观察 人 类 智能 活动 的 窗口 ， 这 束 为 在 
CALL FSA AL REN TEE T AANA, ICALLY AR E BY 
为 理所当然 的 了 。 


ICALL 与 CALL 的 差别 主要 体现 在 两 个 方面 : 


第 一 ，ICALL 使 用 的 句子 的 目 动 分 析 技 术 ， 能 够 针对 第 二 语言 学 
习 者 的 特点 ， 对 于 他 们 造 出 的 句子 进行 目 动 分 析 ， 给 出 句子 的 目 动 分 
析 结 果 ， 并 指出 偶 误 的 所 在 ， 从 而 提高 第 二 语言 学 习 痢 对 于 学 习 中 俩 
误 的 意识 ， 目 觉 地 纠正 偏 误 ;而 CALL 主 要 使 用 数据 库 或 CD-ROM 的 
存储 技术 来 存储 CALL 的 信息 ， 并 使 用 简单 的 模式 匹配 技术 来 判别 学 
习 者 的 回答 是 否 正 确 ， 尽 管 有 一 些 CALL 系 统 也 使 用 了 自然 语言 处 理 
NA MAR AR ETT i BAZ, 但是， 对 于 第 二 语言 学 
习 者 在 学 习 中 偏 误 注 意 不 够 ,针对 性 不 强 。 


第 二 ，ICALL 使 用 互联 网 (Web) 在 非常 广阔 的 范围 内 甚至 在 世 
界 各 地 进行 联网 ， 广 泛 使 用 超 文 本 (Hypertext) 技术 和 超 链 接 
(Hyperlink) 技术 ， 而 CALL 的 网 络 一 般 在 局 部 范围 内 链接 ， 可 以 使 
用 多 媒体 技术 ， 但 是 ， 一 般 没 有 使 用 超 文本 技术 和 超 链接 技术 。 


因此 ， 不 论 是 CALL 还 是 ICALL， 它 们 与 自然 语言 的 自动 分 析 技 
术 都 有 着 非常 密切 的 关系 ， 而 ICALL 是 使 用 Web 来 进行 教学 ， 与 Web 


有 密切 关系 。 
我 国 计 算 机 辅助 语言 教学 的 研究 近年 来 已 有 了 很 大 的 进展 。 


华东 师范 大 学 是 我 国 最 早 研 究 计算 机 辅助 语言 教学 的 单位 之 一 ， 
他 们 先后 研制 成 作为 英语 教师 和 人 研究 者 助手 的 智能 软件 ETRA 系 统 以 
及 作为 德语 教师 和 人 研究 者 助手 的 状 能 软件 GERTRA 和 系统。 北京 双语 教 
育 电子 有 限 公司 研制 了 计算 机 辅助 英语 教学 软件 “时 上 英语 学 校 ”， 利 
用 多 媒体 技术 ， 成 功 地 模拟 了 学 习 英 语 的 有 声 环境 ， 为 英语 学 习 者 提 
供 了 方便 。 北 泵 得 力 软件 研究 所 人 研制 了 一 套 家 帮 教 育 系 列 软件 ， 可 以 
用 计算 机 辅助 学 习 英 语 、 语 文 、 数 学 、 和 生理 卫 生 、 物 理 、 化 学 等 课 
程 。 北 京 语言 大 学 根据 对 外 汉语 教学 的 担 切 需要 ， 开 发 了 智能 型 计算 
机 辅助 汉语 教学 系统 ， 该 系统 由 知识 库 、 学 生 模 型 模块 、 教 学 决策 模 
块 、 汉 语 语音 合成 侨 及 语音 库 等 四 个 模块 组 成 ， 并 已 开始 使 用 ;， 他 们 
还 开发 的 外 国学 生 汉 语 中 介 语 语料库 ， 分 析 外 国学 生 学 习 汉 语 的 侦 
误 ， 从 而 提高 对 外 汉语 教学 的 质量 。 


计算 机 辅助 教学 代表 着 一 种 新 的 教育 方式 ， 它 具有 很 强 的 个 别 化 
教学 功能 ， 可 同时 对 一 批 学 生 因材施教 ， 最 能 适应 以 学 生 为 中 心 的 开 
放 式 教学 。 随 着 科 学 技术 的 进一步 发 展 ， 以 计算 机 为 主体 ， 配 以 光纤 
通讯 和 卫星 传播 ， 可 组 成 计算 机 辅助 教学 网 络 ， 使 众多 的 学 习 者 不 仅 
可 以 共享 网 络 中 所 有 的 教育 资源 ， 而 且 还 可 以 在 家 里 用 微机 采用 通讯 
的 方式 进行 学 习 ， 这 必 将 使 教育 发 生 巨大 的 变化 ， 对 于 普及 教育 大 有 
好 处 。 


21 世 纪 是 信息 化 和 网 络 化 的 时 代 。 随 着 互联 网 的 日 益 普 及 , “电子 
学 习 ”(E-leaming) 方兴未艾 ， 教 育 理念 也 随 之 发 生 了 重大 变革 ， 教 
育 网 络 化 已 成 为 一 种 趋势 ， 各 种 学 习 网 站 和 网 络 课程 如 雨 后 春 筑 般 消 


现 ， 利 用 网 络 提高 目 己 的 知识 水 乎 ， 优 化 目 己 的 知识 结构 的 人 数 与 日 
俱 增 ， 网 络 已 成 为 终身 学 习 的 便捷 途径 。 在 网 络 上 的 计算 机 辅助 语言 
教学 有 着 广阔 的 发 展 前 景 。 


pT ”计算 机 辅助 语言 测试 


在 语言 测试 中 使 用 计算 机 出 题 、 考 试 、 评 分 、 进 行 试卷 分 析 及 成 
绩 反 馈 ， 叫 做 计算 机 辅助 语言 测试 (Computer Assisted Language 
Test， 简 称 CALT) 。 进 入 21 世 纪 以 后 ， 随 着 网 络 的 日 益 普 及 ， 利 用 网 
络 进行 测试 的 优越 性 越 来 越 明 显 ， 语 言 测试 研究 者 们 的 兴趣 逐渐 转 问 
了 利用 网 络 进行 语言 测试 的 和 尝试。 计算 机 辅助 语言 测试 可 人 简称 为 “语言 
自动 评测 ” (Automatic Language Test) 或 “自动 评测 ” (Automatic 
Test) 。 


目 动 评 测 一 般 分 为 客观 题目 动 测评 和 主观 题目 动 测评 两 种 。 


客观 题 一 般 都 症 有 现成 答案 的 多 项 选择 题 ， 测 试 时 只 要 求学 生 选 
出 正确 选项 即 可 。 这 种 题 型 的 目 动 测评 对 于 计算 机 而 言 没 有 技术 上 的 
困难 ， 很 容易 实现 。 


主观 题 又 分 为 两 种 ， 一 种 是 用 于 考查 学 生 知识 掌握 情况 的 主观 
题 ， 男 一 种 是 用 于 考查 学 生 语言 掌握 情况 的 主观 题 。 


这 两 种 主观 题 的 区 别 是 : 用 于 考查 学 生 知识 掌握 情况 的 主观 题 的 
测评 内 容 是 知识 体系 中 的 知识 点 及 其 相互 关系 ， 所 使 用 的 语言 并 不 是 
测评 的 对 象 ， 而 用 于 考 碍 学 生 语 言 掌握 情况 的 主观 题 的 测评 内 容 是 语 


言 本 号 ， 看 其 表达 得 是 否 正 确 、 通 顺 ， 学 生 所 使 用 的 语言 同时 也 十 测 
评 的 对 象 。 从 测评 的 角度 来 讲 ， 后 者 对 目 动 测评 的 精度 要 求 更 高 。 


任何 语言 测试 试卷 一 般 都 由 客观 题 和 主观 题 两 种 题 型 组 成 ， 这 样 
便于 更 加 准确 地 测评 学 生 实际 的 语言 水 平 ， 避 人 免 由 于 猜测 而 造成 的 测 
试 信 度 的 降低 。 


但 是 ， 由 于 主观 题 的 目 动 测评 涉及 许多 领域 ， 有 许多 难题 没有 解 
决 ， 国 内 许多 大 规模 考试 都 采取 人 工 批阅 主观 题 的 方法 。 这 种 做 法 不 
但 需要 投入 大 量 的 时 间 和 人 力 ， 而 且 评 判 的 标准 也 不 容易 统一 ， 影 啊 
测试 的 信和 度 。 在 这 种 情况 下 ， 主 观 题 的 目 动 测评 研究 对 于 大 规模 标准 
化 考试 (如 大 学 英语 四 、 六 级 考试 ) 中 主观 题 的 自动 评分 就 显得 十 分 
迫切 。 


目 从 出 现 学 习 和 教学 活动 以 来 ， 测 试 束 一 同 诞生 了 。 语 言 测试 是 
随 着 外 语 教 学 而 出 现 的 。 随 着 测试 实践 的 发 展 和 测试 理论 研究 的 深 
入 ， 逐 渐 形 成 了 “测试 学 ”这 门 学 科 。 测 试 学 家 们 根据 测试 的 形式 和 性 
质 等 ， 对 测试 进行 了 分 类 ， 以 明确 人 人们 对 测试 的 认识 ， 以 便 更 好 地 指 
导 测 试 和 教学 实践 。 


从 宏观 上 说 ， 测 试 可 分 为 客观 测试 和 主观 测试 两 种 。 


客观 测试 又 称 为 “选择 回答 ”(〈Selective response) 、“ 非 构建 性 回 
答 ” ( Non-constructed response) 、“ 接 受 性 回答 题目 ” ( Receptive- 
response items) 等 。 客 观测 试 时 题目 的 答案 是 固定 的 ， 不 允许 考生 自 
由 发 挥 ， 通 常 也 不 必 由 考 生 自 己 写 出 答案 因为 这 种 测试 的 答案 在 出 题 
时 就 已 准备 好 了 ， 考 斌 时 考生 只 需 选 择 某 个 答案 即 可 。 多 项 选择 题 、 
判断 正 误 题 、 匹 配 题 、 填 衬 题 等 都 属于 客观 测试 。 


主观 测试 的 题目 需要 考生 用 文字 来 回答 ， 又 称 为 “ 产 出 性 回答 题 
H " (Productive-response items) 、“ 构 建 性 回答 ” (Constructed 
response) 、“ 生 成 回答 ”(Generated response) 、“ 开 放 回 答 ” (Open- 
ended, Free text) 等 。 主 观测 试 又 分 为 “ 受 限 的 主观 回答 ” (Limited 
constructed response ) 和 “扩展 的 主观 回答 ” (Extended constructed 
response) 两 种 。 前 者 是 指 答题 时 必须 用 一 个 词 或 短语 来 回答 ， 而 后 者 
则 指 答题 时 不 受 任何 限制 ， 具 体 用 词 可 以 不 固定 ， 只 要 将 关键 词 或 天 
键 信息 包括 在 答案 内 即 可 ， 如 位 答题 、 作 文 题 等 。 


根据 测试 实施 时 的 风险 ， 如 测试 时 考生 作 浆 可 能 性 的 大 小 、 题 目 
被 泄漏 可 能 性 的 大 小 等 因素 ， 测 试 被 分 为 “ 低 风 险 测试 ” (Low-stake 
assessment) 、“ 中 风险 测试 ”(Medium-stake assessment) 和 “高 风险 测 
试 ” (High-stake assessment) 三 种 。 


低 风 险 测 试 是 指 考生 没有 作弊 动机 的 测试 。 这 种 测试 只 为 学 习 服 
务 ， 即 给 语言 学 习 者 提供 反馈 信息 ， 告 诉 他 们 距离 学 习 目 标 还 有 多 
远 ， 如 小 测验 、 目 测 等 。 


中 风险 测试 是 指 考生 可 能 出 现 作 中 动机 的 测试 。 这 种 测试 对 考生 
有 一 定 的 影响 ， 但 不 会 有 深远 的 、 可 改变 考生 命运 的 影响 ， 如 语言 水 
平分 级 考试 、 期 中 、 期 末 考 试 、 远 程 教育 课程 考试 等 。 


高 风险 测试 则 是 指 可 改变 考生 命运 的 考试 ， 如 入 学 考试 、 证 书 考 
试 、 职 业 考 试 等 。 
众所周知 ， 最 初 的 测试 是 通过 纸 和 笔 进行 的 ， 称 为 传统 测试 。 随 


着 计算 机 的 发 明 及 个 人 计算 机 的 普及 ， 出 现 了 通过 计算 机 实施 的 测 
试 ， 即 “基于 计算 机 的 测试 ”(Computer-based testing， 简 称 CBT) ° Æ 


于 计算 机 的 测试 又 叫做 “计算 机 管理 的 测试 ” (Computer-managed 
testing) , “计算 机 增强 的 测试 ”(Computer-enhanced testing) ,“ 计 算 机 
辅助 的 测试 ” (Computer-assisted testing) 等 。 随 着 研究 的 深入 ， 人 们 
不 再 满足 于 只 让 计算 机 起 一 个 测试 媒介 的 作用 ， 还 利用 了 计算 机 的 智 
能 化 功能 ， 推 出 了 “计算 机 自 适 应 测试 ”(Computer-adaptive testing, $ 
称 CAT) 。 计 算 机 自 适 应 测试 可 以 根据 考生 的 具体 答题 情况 ， 调 整 测 
斌 难度， 一 旦 测 出 考生 水 平 ， 考 试 立 刻 终止 。 这 种 测试 在 很 大 程度 上 
不 但 三 约 了 测试 时 间 和 测试 资源 ， 而 且 使 测试 更 加 入 性 化 ， 因 为 考生 
不 会 因为 答 不 出 某 些 很 难 的 测试 题 而 感到 难堪 ， 也 不 会 因为 测试 题 太 
多 或 太 容 易 而 浪费 时 间 。 目 前 采用 CAT 进 行 的 语言 测试 题 有 词汇 题 、 
语法 题 、 阅 读 理解 题 、 上 听力 理解 题 等 ， 这 些 试题 的 出 题 形 式 都 是 多 项 
选择 题 。 


进入 20 世 纪 90 年 代 后 ， 随 着 互联 网 的 普及 ， 语 言 考 试 也 可 以 在 互 
联网 上 进行 ， 出 现 了 “基于 网 络 的 测试 ” (Web-based testing, ， 简 称 
WBT) 或 “基于 互联 网 的 测试 ” (Internet-based testing， 简 称 IBT) ， 基 
于 网 络 的 测试 或 基于 互联 网 的 测试 实质 上 是 “基于 计算 机 的 测 
试 ”(CBT) 的 网 上 再 现 。 


FÆR (Roever) 将 “基于 网 络 的 测试 定义 为 : “通过 互联 网 实现 
的 基于 计算 机 的 测试 ”。 他 还 把 * 基 于 网 络 的 测试 ?分 为 “ 低 技术 测 
ist” (low-tech test) 和 “高 技术 测试 ”(\high-tech test) 两 种 。 在 低 技术 
测试 时 ， 测 试 完 全 在 考生 个 人 计算 机 上 进行 ， 服 务 器 只 保存 试题 、 提 
供 下 载 和 存储 答案 等 操作 。 这 种 测试 不 需要 服务 右 端 进行 编程 ， 成 本 
低廉 ， 考 试 的 试题 量 不 大 ， 不 需要 考生 对 做 题 结 采 进 行 信息 反馈 ， 考 
试 设计 者 不 依赖 软件 工程 师 。 在 高 技术 测试 时 ， 测 试 对 于 服务 需 提 供 
的 难度 不 同 的 考题 的 依赖 性 很 剖 ， 测 试 系统 可 根据 考生 的 具体 答题 情 


况 调 下 考题 难度 ， 搜 集 、 分 析 考 生 的 答案 。 这 种 测试 适合 于 考试 人 数 
多 ， 题 库 量 大 ， 有 计算 机 专家 参与 的 情况 。 它 实质 上 是 计算 机 目 适 应 
测试 的 网 络 化 ， 所 以 有 叫做 “基于 网 络 的 自 适应 考试 ” (Web-adaptive 
test， 简 称 WAT) 。 一 个 简单 的 “基于 网 络 的 自 适 应 考试 * 由 一 套 难 度 递 
增 的 试题 组 成 ， 测 试 开 始 时 试题 难度 为 中 等 水 平 ， 然 后 视 考 生 答 题 情 
况 的 好 坏 提 高 或 降低 难度 ， 当 考生 管 对 率 不 足 50% 时 ， 考 斌 就 自动 中 
上 o 


此 外 ， 测 试 还 可 以 按 其 目的 分 为 “诊断 性 测试 ” (Diagnostic 
test) 、“ 水 平 测试 ” (Proficiency test) 和 “成 就 测试 ” (Achievement 
test) ; 也 可 以 按 参加 测试 的 人 数 和 规模 分 为 “大 规模 测试 ” (Large- 
scale test) 、“ 中 等 规模 测试 ” (Medium-scale test) 和 “小 规模 测 


试 ”(Small-scale test) 等 。 


早 在 1935 年 ， 在 第 一 台电 子 计算 机 ENIAC 还 没有 人 研制 成 功 的 时 
候 ，IBM 公 司 就 研制 出 805 型 模型 机 来 进行 语言 测试 ， 这 是 目前 利用 机 
器 进行 语言 测试 的 最 早 记 录 ，805 型 模型 机 是 第 一 个 可 以 使 用 机 器 批改 
客观 题 (多 项 选择 题 ) 的 工具 。 这 个 模型 机 在 美国 引起 了 广泛 的 关 
注 ， 得 到 了 普遍 的 使 用 ， 大 大 地 降低 了 人 工 阅卷 的 工作 量 ， 节 省 了 语 
言 测试 的 费用 出 。 


美国 伊利 诡 伊 大 学 研制 出 可 以 测评 学 生 语 言 学 习 情 况 系统 ， 叫 
做 “全 面 行为 分 析 ” (General performance analysis) 系统 ， 这 个 系统 6 
用 于 测评 学 生 的 法 语 课程 学 习 情 况 ， 可 记录 学 生 一 个 学 期 的 学 习 情 
况 。 当 学 生 要 了 解 学 习 情 况 时 ， 该 系统 可 随时 提供 各 种 信息 ， 如 所 学 
语法 项 目的 数量 以 及 所 得 到 的 总 分 等 。 此 外 ， 学 生还 可 以 知道 不 及 格 
的 具体 语法 项 是 哪些 。 


1966 年 ， 美 国 杜 克 大 学 的 派 基 (Ellis Batten Page) 开发 了 评价 文 
章 写 作 质量 的 “文章 分 级 ”(Project Essay Grade) 系统 ， 简 称 PEG。 派 
基 认 为 ， 一 个 人 的 写作 风格 有 其 内 在 的 特性 ， 可 以 用 “trins” 进 行 描 
述 ， 并 可 对 其 进行 量化 ， 量 化 后 的 结果 叫 “proxes”。 PEG 的 评分 达到 了 
较 高 的 准确 率 ， 但 它 只 是 依靠 统计 方法 来 评定 文章 的 质量 ， 没 有 使 用 
自然 语言 处 理 的 深层 分 析 技 术 ， 也 没有 考虑 到 词汇 的 语义 。 


1984 年 美国 评估 系统 公司 (Assessment Systems Corporation) 推出 
了 MicroCAT 系 统 。1999 年 又 推出 了 更 为 先进 的 FastTEST CAT 系 统 。 这 
些 系统 的 所 有 题目 都 有 难度 、 区 别 度 和 猜测 参数 标注 ， 还 有 题目 的 内 
容 、 上 下 文 等 信息 。 所 有 题目 和 题目 水 平等 级 信息 都 存储 在 本 地 计算 
机 或 本 地 网 络 的 题库 中 。 


1985F, SE MAMAS (Larson) AAA (Madsen) 
开发 了 法 语 、 德 语 和 西班牙 语 的 CAT 工 具 ， 用 于 大 学 的 分 级 测试 。 


英国 剑桥 大 学 地 方 考试 集团 (The University of Cambridge Local 
Examinations Syndicate， 人 简称 UCLES) 开发 了 用 于 学 术 和 商业 不 同 目 
的 的 各 种 语言 (英语 、 法 语 、 德 语 、 西 班 牙 语 ) 的 CAT 测 试 工具 。 


欧盟 理事 会 (the Council of Europe Union) 资助 了 可 测试 丹麦 
语 、 答 兰 语 、 有 英语 、 芬 兰 语 、 法 语 、 德 语 、 项 腊 语 、 冰 岛 语 、 爱 尔 兰 
语 、 意 大 利 语 、 挪 威 语 、 和 葡萄 牙 语 、 西 班 牙 语 、 瑞 典 语 等 14 种 欧洲 语 
言 的 DIALANG 项 目 。 通 过 DIALANG， 考 生 可 以 了 解 自 己 的 词汇 、 语 
法 、 写 作 、 阅 读 、 听 力 的 水 平 。 考 生还 可 以 自己 选择 他 们 想 测试 语言 
的 等 级 ， 系 统 通 过 提供 词汇 测试 来 完成 语言 能 力 的 测评 ， 所 有 题目 都 
可 以 通过 测试 的 进程 随时 进行 调整 。DIALANG 还 可 给 考生 提供 如 何 
提高 语言 水 平 的 反馈 意见 。 


1997 年 ，Ordinate Corporation 公 司 开 发 了 PhonePass 系 统 ， 用 于 测 
试 母 语 为 非 英语 人 士 的 英语 听力 和 英语 口语 水 平 。 测 试 仅 需 10 分 钟 ， 
PhonePass 系 统 包 括 大 声 朗读 句子 、 重 复句 子 、 回 答 简 短 问题 、 造 句 和 
回答 开放 题 等 5 项 内 容 ， 还 可 以 通过 电话 测试 口语 水 平 。 计 算 机 可 以 利 
用 统计 模型 把 说 话 人 说 的 某 个 词 的 声音 与 数据 库 中 北美 地 区 英语 为 本 
族 语 的 人 的 发 音 进行 比较 。 测 试 结果 显示 ，PhonePass 与 人 工 测 试 结果 
的 相关 系数 为 0.93， 在 某 些 情况 下 ，PhonePass 测 试 的 结果 甚至 比 人 工 
测试 的 结果 还 要 准确 。 


成 立 于 1947 年 的 美国 教育 考试 服务 中 心 (Educational Testing 
Service， 简 称 ETS) 从 成 立 之 日 起 就 致力 于 英语 作文 计算 机 评阅 系统 
的 人 研究。 经 过 多 年 的 研制 ， 推 出 了 可 以 批改 学 生 瑞 语 作文 的 “电子 打 
分 系统， 叫做 E-rater ^ 


E-rater 可 分 别 在 全 文 和 文中 的 单个 论点 两 个 层次 上 对 学 生 提交 的 
作文 与 训练 所 用 作文 的 词汇 进行 比较 ， 计 算 其 相似 度 ， 并 根据 计算 结 
条 判断 学 生 作文 在 词汇 运用 方面 所 处 的 分 数 档 次 。1999 年 该 系统 正式 
投入 使 用 ,不 仅 可 用 于 美国 国内 著名 的 高 风险 大 规模 考试 ， 如 GMAT 

( Graduate Management Admission Test) 和 GRE (Graduate Record 
Examinations) 两 个 考试 的 写作 题 批 改 中 ， 而 且 还 可 用 于 托福 考试 
(Test of English as Foreign Languages， 人 简称 TOEFL) 的 写作 题 批 改 ， 
并 于 1998 年 在 美国 本 土 及 许多 其 他 国家 推出 了 基于 计算 机 的 托福 考 
试 。 仅 在 1999 年 的 GMAT 考 试 中 ，E-rater 就 成 功 批改 了 750 0000 份 作 

X, 与 人 工 批改 的 一 致 性 高 达 979% 。 


E-rater 采 用 鳌 体 评分 策略 ， 从 写作 风格 、 修 辞 等 角度 整体 上 对 作 
文 进行 评判 ， 不 存在 正确 或 者 错误 答案 ， 同 时 该 系统 需要 大 量 的 训练 


数据 以 建立 评分 模型 。 但 是 ， 对 于 那些 需要 判断 答案 内 容 是 否 正 确 并 
给 出 具体 分 数 的 目 动 批改 类 问题 ，E-rater 显 得 无 能 为 力 。 


在 成 功 开发 和 广泛 使 用 E-rater 的 基础 上 ， 美 国教 育 考 试 服务 中 心 

的 研究 人 员 还 开发 了 基于 内 容 和 限定 领域 的 目 动 评 分 系统 叫做 C-rater 

(Concept-rater 的 缩写 ) ， 用 于 短文 回答 问题 题 型 的 自动 测评 。 该 系统 
目前 只 用 于 心理 学 和 生物 学 两 门 学 科 的 短文 回答 问题 的 自动 评分 。 


英国 朴 次 茅 斯 大 学 (University of Portsmouth) 研制 了 专门 用 于 非 
多 项 选择 题 和 短文 回答 问题 的 和 目 动 测评 系统 ， 叫 做 The Automated Text 
Marker， 人 简称 ATM。ATM 系 统 可 以 对 用 自然 语言 书写 的 答案 内 容 进 行 
评测 ， 并 且 能 够 用 于 各 种 具体 学 科 上 。 


英国 利物浦 大 学 (University of Liverpool) 开发 了 AutoMark 目 动 
评分 系统 ， 用 于 短文 回答 问题 的 评分 。1999 年 该 系统 正式 用 于 全 英国 
11 多 小学生 的 上 自然 科学 课程 测试 中 。 该 卓然 科学 课程 测试 属 高 风险 测 
试 ， 目 1995 年 以 来 ， 全 英国 每 年 都 有 50 万 名 11 到 14 罗 的 学 生 参 加 该 考 
试 。 这 样 有 影响 的 高 风险 考试 采用 了 这 个 机 器 评分 系统 ， 说 明 
AutoMark 目 动 评 分 系统 的 性 能 已 完全 达到 了 实用 的 要 求 。 


由 朗 文 英语 中 心 开 发 的 朗 文英 语 水 平 测试 系统 (Longman English 
Assessment) 是 一 个 低 风 险 的 “计算 机 上 自 适 应 测试 ?系统 ， 它 通过 让 考 
生 回 答 诸 如 “你 为 什么 学 英语 ? ”等 问题 ,来 了 解 考生 是 出 于 商业 目 
的 ， 还 是 出 于 一 般 目的 来 参加 测试 ， 以 发 现 其 感 兴趣 的 内 容 ， 然 后 给 
出 词汇 和 语法 题目 。 系 统 可 根据 考生 回答 的 情况 ， 推 荐 初级 、 中 级 、 
高 级 作为 下 一 级 的 测 斌 水平。 考试 时 间 仅 15 分 钟 。 而 该 中 心 开 发 的 明 
文英 语 交 互 系 统 (Longman English Interactive) ， 则 把 诊断 性 测试 与 


成 束 性 测试 整合 在 一 起 。 Longman English Interactive 2003 版 在 测验 和 
考试 中 还 包含 录像 内 容 。 


目前 ， 利 用 计算 机 进行 口语 测试 以 及 交互 式 测试 的 探索 已 经 开 
始 。 应 用 语言 学 中 心 推出 的 “计算 机 口语 能 力 面 试 系 
Zi" (Computerized Oral Proficiency Interview) 以 及 随后 的 “模拟 口语 能 
HERAA” (Simulated Oral Proficiency Interview) 等 都 是 最 先进 的 英 
语 口语 计算 机 交互 式 考试 系统 。 


其 他 各 种 类 型 的 “计算 机 上 自 适 应 测试 ”系统 还 有 很 多 。 例 如 ， 由 
防 语言 研究 所 (Defense Language Institute) 开发 并 实施 的 英语 理解 水 
平 测 试 (English Comprehension Level Test) ; 由 商业 英语 测试 服务 处 
(The Business Language Testing Service) 研制 的 ACT ESL 评 测 (ACT 
ESL Placement Test) ; 由 美国 教育 考试 服务 中 心 研 制 的 基于 计算 机 的 
TOEFL 考 试 (the Computer-based TOEFL) 中 的 “结构 与 写作 表达 评 
测 ” (The Structure and Written Expression Section) 以 及 听力 评测 (the 
Listening Section) ; Hi COMPASS/ESL 研制 的 “COMPASS 电子 写 
fe” (COMPASS e-Write) 系统 等 。 


总 之 ,“ 基 于 计算 机 的 测试 "和 “计算 机 目 适应 测试 ”的 各 种 语言 测 
试 系统 已 从 最 初 的 只 限于 客观 题 的 测评 ， 发 展 到 了 主观 题 的 测评 ， 从 
小 规模 、 试 验 性 的 低 风险 测试 ， 发 展 到 了 大 规模 的 高 风险 测试 。 


Ordinate Corporation 公 司 开发 了 自动 口语 测评 系统 PhonePass。 该 
系统 利用 语音 识别 技术 来 测评 学 生 在 重复 发 某 个 词 的 音 、 语 音 语调 、 
阅读 流利 程度 、 重 复 流 利 程度 等 方面 的 精确 性 。PhonePass 系 统 还 设计 
了 一 种 算法 ， 可 以 从 说 各 种 英语 地 区 方言 和 社会 方言 的 英语 本 族 语 人 
的 大 规模 口语 语料库 中 获取 参数 ， 匹 配 评分 。 


可 见 ， 目 前 利用 计算 机 目 动 测评 英语 主观 题 的 技术 已 经 相当 成 熟 
了 ， 并 且 已 经 走 同 实用 化 了 。 


互联 网 为 语言 测试 实现 网 络 化 创造 了 很 好 的 条 件 。 从 目前 的 报道 
来 看 ， 多 项 选择 (multiple choice) ` ZWZ (cloze test) 、 完 成 语 
篇 (discourse completion) 、 论 文 写 作 (essays) 、 阅 读 理 解 (reading 
comprehension) 的 短文 回答 问题 (brief-response questions) 等 题 型 已 
实现 了 基于 网 络 的 目 动 测评 。 近 年 来 ， 除 文字 形式 的 网 上 测试 题目 
外 ， 还 出 现 了 音频 和 视频 的 网 上 测试 题目 。 


前 面 提 到 欧洲 理事 会 资助 的 DIALANG 系 统 ， 现 在 已 可 以 通过 互 
联网 为 14 种 欧洲 语言 提供 诊断 测试 。 虽 然 该 系统 还 未 采用 目 适 应 题 
目 ， 但 它 可 以 通过 最 初 的 目 我 测评 及 随后 的 测试 了 解 到 考生 的 语言 水 
平 o 


HH Ordinate Corporation 公 司 开发 的 PhonePass 系 统 现 已 推出 了 网 络 
版 o 


美国 加 州 大 学 洛杉矶 分 校 (University of California, Los Angeles) 
开发 的 基于 网 络 的 语言 测试 系统 (Web-based Language Assessment 
System ， 人 简称 WebLAS) 是 一 个 分 级 测试 系统 ， 可 提供 外 语 的 分 级 测 
试 ， 并 给 考生 提供 学 习 进 展 、 汇 报 诊断 和 最 终 学 习 成 果 等 方面 的 信 
已 ， 还 可 用 视频 讲座 来 考查 学 生 的 英语 理解 能 


2002 年 AutoMark 也 被 搬 到 了 网 上 ， 取 名 叫做 ExamOnline ° 


此 外 ， 明 文英 语 中 心 开 发 的 网 络 英 语 课程 Market Leader 可 给 学 生 
和 老师 提供 初 测 试 和 后 测试 的 信息 。 


网 上 语言 测试 网 站 现在 已 越 来 越 多 ， 例 如 Dave's ESL Café€ 有 个 小 
测验 中 心 ， 叫 做 Quiz Center ° WREE, LAT, BRERA 
上 测试 系统 ，ForumEducation.net 网 站 可 提供 两 个 多 项 选择 词汇 测试 ， 
用 于 测试 秽语 词汇 知识 ， 作 为 衡量 秽语 语言 水 平 的 一 个 尺度 ; 
Wordskills.com 网 站 可 提供 3 个 水 平 的 测试 ， 每 套 25 个 题 ， 还 可 为 剑桥 
第 一 证 书 (the Cambridge First Certificate ) 、 高 级 英语 证 书 

(Certificate in Advanced English) 及 英语 水 平 证 书 (The Certificate of 
Proficiency in English) 提供 测试 ，Churchill House 也 提供 网 上 测试 ， 为 
将 要 参加 英国 剑桥 大 学 地 方 考试 集团 组 织 (UCLES) 的 考试 的 考生 服 
务 ， 所 有 题目 都 是 多 项 选择 题 ; Netlanguages.com 网 站 可 以 给 学 习 者 提 
供 两 部 分 的 测试 : 一 是 纯粹 的 语言 水 平 测 评 ， 二 是 为 网 络 课程 的 学 习 
进行 的 初 测试 ， 以 确定 测试 者 该 进入 哪个 级 别 的 课程 学 习 。 测 试 者 可 
移 按 目 己 的 估计 ， 选 择 目 己 的 英语 水 平 进行 测试 。 第 一 部 分 是 语法 ， 
考生 给 句子 填词 。 如 果 10 道 题目 做 下 来 ， 分 数 过 低 ， 束 有 文字 建议 测 
试 者 应 改 做 另 一 水 平 的 题目 ;第 二 部 分 是 从 问题 集合 中 选择 一 些 问 
题 ， 然 后 写 出 两 三 个 句子 ， 进 行 回 答 ; 另外 ，Study.com 网 站 可 以 提供 
英语 听力 、 口 语 、 写 作 、 词 汇 、 阅 读 、 语 法 测试 ， 并 为 学 习 者 提供 网 
上 英语 课程 的 分 级 测试 。 


美国 教育 考试 服务 中 心 的 E-rater 系 统 现在 已 经 有 了 网 络 版 ， 叫 做 
Criterion。 Criterion 与 E-rater 的 最 大 不 同 之 处 在 于 ，Criterion 主 要 立足 
于 给 学 生 提 供 英 语 作文 写作 指导 ， 因 此 开发 了 反馈 模块 ， 可 根据 作文 
质量 的 统计 数据 提供 反馈 信息 ， 如 与 主题 、 流 利 程 度 等 有 关 的 信息 
等 ， 主 要 用 于 各 个 高 校 及 学 术 机 构 的 写作 测评 及 课 等 辅助 教学 。 目 前 
Criterion 已 用 于 小 学 、 初 中 和 高 中 的 英语 作文 批改 ， 以 及 大 学 本 科 
生 、 研 究 生 的 英语 水 平 测试 (English Proficiency Test， 简 称 EPT) 和 


托福 考试 的 准备 练习 。 另 外 ， 利 用 E-rater 的 “TBT-TOEFL”( 基 于 网 络 
的 托福 考试 ) 2006 年 起 已 全 面 实行 网 上 测试 。 


在 测试 理论 方面 ， 基 于 网 络 的 测试 或 网 络 自 适 应 测试 与 基于 计算 
机 的 测试 或 计算 机 自 适应 测试 有 很 多 相同 之 处 ， 但 网 络 的 自身 特点 也 
给 理论 探讨 提出 了 新 的 课题 ， 主 要 体现 在 测试 的 真实 性 、 灵 活性 和 多 
样 性 三 个 方面 。 


真实 性 包括 情景 真实 (Situational authenticity, 如 场景 、 参 与 者 、 内 
容 、 语 调 、 种 类 等 ) 和 交互 真实 (Interactional authenticity, 如 考生 的 语 
言 知 识 、 交 际 任务 等 ) 两 个 方面 。 研 究 者 们 认为 ， 利 用 网 络 进行 测 
试 ， 测 试题 目 不 再 是 封闭 型 测试 题目 ， 而 可 以 是 多 媒体 的 形式 ， 如 文 
本 、 图 像 、 声 首 、 视 频 ， 或 是 包含 一 些 链 授 ， 如 链接 到 某 个 图 书馆 或 
数据 库 的 、 可 以 使 用 外 部 资源 的 真实 信息 ， 由 于 采用 了 这 些 信息 ， 语 
言 测试 将 更 加 真实 。 


灵活 性 是 指 测试 实施 的 灵活 性 。 由 于 网 络 的 普及 ， 基 于 网 络 的 测 
试 可 以 不 受 时 间 、 地 点 的 限制 ， 考 生 可 以 在 自己 方便 的 任何 时 间 、 任 
何 地 点 参加 测试 ， 考 生还 可 以 按 目 己 的 节奏 进行 测试 。 


多 样 性 是 指 网 络 可 以 提供 各 类 考试 ， 可 以 是 大 规模 的 高 风险 状 
试 ， 也 可 以 是 低 风险 的 小 规模 考试 ， 或 是 目测 等 。 


除了 具有 上 述 优 点 外 ， 基 于 了 网络 的 测试 实施 成 本 低廉 ， 考 生 只 需 
要 有 一 台 联 网 的 计算 机 ， 装 一 个 网 络 浏 顺 恬 束 可 以 参加 测试 ， 而 测试 
结果 一 般 都 可 立刻 获得 ， 并 可 以 得 到 测试 结果 分 析 、 学 习 指 导 等 其 它 
反馈 信息 。 另 外 ， 测 试 设计 者 不 需要 懂 计 算 机 编程 ， 只 要 有 超 文本 置 
标语 言 (Hyper Text Mark-up Language， 人 简称 HTML) 的 初步 知识 就 可 


胜任 测试 题目 的 设计 任务 ， 设 计 者 可 以 键入 考题 ， 或 利用 免费 的 编辑 
程序 出 题 。 


虽然 基于 网 络 的 测试 有 诸多 优点 ， 其 缺点 也 是 显而易见 的 。 例 
如 ， 在 网 络 测试 时 ， 往 往 会 出 现 考试 作弊 、 数 据 存储 故障 、 服 务 右 失 
Fe > DU ham BARA ^ SRE AUC > PT H AAR SS i AIL ES > 
网 页 过 于 复杂 、 考 生计 算 机 速度 过 慢 等 现象 ， 这 些 现象 都 会 影响 基于 
网 络 的 测试 顺利 实施 。 


基于 网 络 的 自动 测评 技术 与 基于 计算 机 的 测评 和 计算 机 目 适 应 测 
评 的 技术 基本 上 是 相同 的 ， 区 别 在 于 如 何 将 基于 计算 机 的 测评 和 计算 
机 目 适 应 测评 技术 转化 为 网 络 上 可 实施 的 测评 技术 。 


利用 互联 网 进行 测试 的 原理 是 使 用 HTML 语 言 编 写 测试 工具 。 测 
试 文件 由 HTML 文 件 组 成 ， 存 放 在 考试 设计 者 的 服务 器 上 ， 然 后 被 下 
载 到 考生 的 计算 机 上 进行 。 可 以 一 次 下 载 全 部 考题 ， 也 可 一 题 一 题 下 
载 。 考 生 使 用 Web 浏 览 器 ， 如 Netscape Navigator 或 Microsoft Internet 
Explorer 解 读 和 展现 下 载 的 HTML 文 件 。 考 生 在 上 自己 的 计算 机 上 答题 ， 
然后 把 答案 发 送 到 服务 左上， 或 使 用 已 下 载 的 评分 功能 ， 得 到 考试 结 
E o 


进行 网 络 辅助 语言 测试 的 编程 语言 ， 一 般 使 用 “实用 抽取 与 报告 语 
Ei" (Practical Extraction and Report Language) 的 脚本 语言 编写 ， 由 服 
务 絮 存储 ， 由 Java 下 载 到 用 户 计 算 机 上 ， 就 可 以 实现 基于 网 络 的 目 动 


测评 。 


基于 网 络 的 目 动 测评 与 基于 计算 机 的 目 动 测评 的 另 一 个 不 同 点 在 
于 反馈 模块 的 不 同 。 基 于 网 络 的 目 动 测评 的 反 纪 模块 要 根据 考生 答题 


情况 的 数据 统计 进行 分 析 ， 之 后 反馈 给 学 生 ， 为 其 下 一 阶段 的 学 习 提 
供 指导 。 
基于 计算 机 和 网 络 的 目 动 测评 研究 的 面 比 较 宽 ， 人 研究 的 问题 很 


多 ， 笑 试 的 技术 和 方法 也 是 多 种 多 样 的 。 许 多 目 动 测评 系统 已 投入 了 
广泛 的 使 用 ， 取 得 了 民 好 的 效果 ， 值 得 我 们 关注 。 


语言 测试 手段 的 改进 是 随 着 科技 的 进步 而 不 断 发 展 的 。 有 学 者 预 
言 计算 机 化 语言 测试 的 时 代 即 将 到 来 ， 这 预示 了 一 场 测试 方式 的 革命 
一 一 由 “ 纸 笔 测试 ” ( pencil-and-paper tests ) 向 “计算 机 化 测 
iX" (computerized tests) 的 转变 。 还 有 专家 预言 ， 通 过 计算 机 及 网 络 
实施 的 高 风险 和 低 风 险 的 各 类 考试 的 数量 将 猛 增 ， 语 言 学 习 者 无 论 在 
世界 的 哪个 角落 ， 或 早 或 晚 都 有 可 能 参加 基于 计算 机 或 基于 网 络 的 语 
言 水 平 测试 ， 可 以 预见 ， 在 语言 教学 和 语言 测试 中 ， 大 规模 的 基于 网 
络 的 语言 水 平 测试 将 日 益 普 及 。 
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第 十 八 章 ”语音 合成 、 语 音 识 别 和 
汉字 识别 


识别 和 汉字 识别 。 这 是 目 然 语言 处 理 中 


本 章 介绍 语音 合成 、 语 音 识 
一 个 重要 的 应 用 领域 。 由 于 这 些 领域 的 研究 涉及 到 较 多 的 物理 、 数 学 
和 信号 处 理 的 知识 ， 本 章 只 从 语言 学 方面 做 简单 的 介绍 。 


FALE. Phe 
第 一 六” 语音 目 动 合成 
所 谓语 音 合 成 (speech synthesis) ， 就 是 用 计算 机 技术 或 数字 信和 号 
处 理 技术 来 重新 产生 人 类 的 语音 ， 这 是 一 种 教会 计算 机 说 话 的 技术 。 
在 一 般 情 况 下 ， 语 音 合 成 需要 把 文本 转换 成 语音 ， 进 行文 语 转换 
(Text-To-Speech， 简 称 TTS) 。 在 语音 合成 中 ， 首 先 要 把 文本 映射 为 
波形 。 例 如 ， 我 们 有 如 下 的 文本 : 
PG&E will file schedules on April 20. 


语音 合成 器 要 把 这 个 文本 映射 为 如 下 的 波形 


图 18.1 ”把 文本 映射 为 波形 


把 文本 映射 为 波形 之 后 ， 计 算 机 残 可 以 把 这 样 波形 转换 成 听 得 见 


的 语音 。 


早 在 1939 年 ， 多 德 莱 (H. Dudley) 就 在 纽约 的 国际 博览 会 上 展 出 
了 “说 话机 ”， 但 是 这 种 说 话机 并 没有 采用 电子 计算 机 的 技术 。1964 年 
EMT AMIL (Van Kempelen machine) ， 能 自动 合成 大 量 的 拉丁 语 
法 语 和 意大利 语 的 词汇 ， 引 起 了 科技 界 的 注意 。 从 20 世 纪 50 年 代 到 70 
年 代 ， 美 国 哈 斯 金 (Haskins) 实验 室 、 贝 尔 实验 室 、 麻 省 理工 学 院 、 
剑桥 空军 研究 实验 室 、 瑞 典 斯 德 可 尔 摩 旦 家 工学 院 、 德 国 夫 琅 不 费 人 研 
究 院 都 进行 过 语 首 合成 的 研究 。 


现代 语 首 合成 有 着 多 种 多 样 的 、 非 常 广 沁 的 用 途 。 


自 先 ， 语 首 合 成 器 可 以 用 于 基于 电话 的 会 话 入 能 代理 系统 
(conversation agent system) 中 ， 这 种 智能 代理 可 以 与 人 进行 对 话 和 交 
谈 。 目 前 国外 的 会 话 智能 代理 系统 已 经 实用 化 了 。 


其 次 ， 语 音 合成 器 还 可 以 在 那些 不 是 会 话 的 场合 用 来 对 人 说 话 ， 
例如 ， 用 语音 合成 器 来 给 言 人 大 声明 读 ， 用 语音 合成 融 来 做 视频 游 
戏 ， 用 语音 合成 瑚 来 做 儿 香 玩具 。 


最 后 ， 语 首 合成 还 可 以 用 于 帮助 那些 神经 受 损 的 病人 说 话 。 例 
如 ， 英 国 著 名 天 体 物理 学 家 霍金 (Steven Hawking) H+ FDL 
Ae MU AME CHE (ALS) 而 失去 了 使 用 自己 语音 的 能 力 ， 现 代 语 首 合 
成 技术 给 他 帮 了 大 忙 ， 他 可 以 通过 打字 给 语音 合成 器 ， 并 让 语音 合成 
右 说 出 单词 的 方式 来 进行 说 话 。 


目前 ， 最 先进 的 语 首 合成 系统 可 以 在 各 种 不 同 的 输入 环境 下 产生 
优质 的 目 然 语音 ， 尺 管 甚至 最 好 的 系统 产生 出 来 的 声音 还 显得 有 些 采 


板 ， 


并 且 只 能 局 限于 它们 所 使 用 的 那些 语音 的 范围 之 内 。 


本 书 作者 几 年 前 患 了 黄斑 前 膜 的 眼病 ， 双 目 视 物 不 清 ， 读 书 非常 


困难 。2005 年 ， 我 借助 于 英语 和 汉语 的 语音 合成 器 让 计算 机 给 我 朗读 
书面 文字 ， 殉 服 了 看 不 清 书 面 文字 的 困难 ， 完 成 了 长 达 588 页 的 《 目 然 
语言 处 理 综 论 》 的 英汉 翻译 工作 ， 中 文 译本 已 经 由 电子 工业 出 版 社 正 
ABT ° 


H 


可 见 ， 现 代 语 音 合成 技术 确实 给 我 们 的 生活 带 来 了 福音 ! 


目前 ， 语 音 合成 技术 已 经 走 进 了 普通 人 的 日 常生 活 。 在 很 多 手机 
都 有 语音 合成 装置 ， 可 以 正确 地 妆 读 出 手机 上 的 短信 。 


语音 合成 分 为 三 大 类 : 录 首 编辑 方式 ， 参 数 编辑 合成 方式 ， 规 则 


合成 方式 。 下 面 分 别 说 明 。 


dg TH Ce TM dui 


e 杂 首 合成 方式 
这 是 一 种 最 老 的 语音 合成 方式 。 采 用 这 种 方式 时 ， 要 预先 把 文 


` 单词 的 组 成 单位 孙 音 ， 然 后 按照 一 定 的 顺序 ， 把 这 些 单位 搭配 起 
， 组 合成 所 需要 的 文章 或 单词 的 声音 。 例 如 ， 在 天 气 预报 中 ， 首 移 
“ 晴 ”、“ 有 时 ”、“ 阴 ”、“ 有 小 雨 ”、“ 多 云 ” 等 个 别 的 语 首 单 位 分 别 录 


然后 在 编辑 输出 “ 晴 ， 有 时 多 云 ”",，“ 阴 ， 有 小 雨 ”等 语 首 合成 的 结 


采 首 编辑 时 ， 语 首 的 存 贮 媒 体 ， 过 去 主要 使 用 磁 豆 ， 如 今 位 辟 已 


经 过 时 ， 近 年 来 ， 由 于 半导体 存 贮 技术 的 迅速 发 展 ， 已 经 完全 使 用 半 
SACER ° 


e 参数 编辑 合成 方式 


孙 音 编辑 方式 是 把 声音 表示 为 波形 ， 而 参数 编辑 合成 方式 则 把 声 
音 表示 为 参数 。 采 用 参数 编辑 合成 方式 ， 首 先 要 建立 语音 生成 过 程 的 
数学 模型 ， 再 用 这 个 数学 模型 的 十 多 个 参数 值 来 表示 声音 。 根 据 参 数 
来 进行 语 首 合成 ， 这 种 方式 大 大 地 市 省 了 信息 的 存 迪 量 。 


采用 录 首 编辑 方式 ， 一 秒 钟 的 声音 需要 的 存 迪 量 是 24 一 64 KB (1 
KB 等 于 1 024 字 和 ， 而 1 个 字 万 等 于 8 个 二 进 制 位 ，1 个 二 进 制 位 瓯 是 1 比 
特 ， 所 以 ，1 个 字 忆 有 8 比特 的 信息 量 ，1 KB 有 8 192 比 特 的 信息 量 ， 而 
采用 参数 编辑 合成 方式 ， 一 秒 钟 的 声音 需要 的 存 贮 量 只 是 1.2 一 9.6 
KB ° 


由 于 大 规模 集成 电路 技术 的 进步 ， 目 前 已 经 有 可 能 采用 参数 编辑 
合成 方式 把 语音 的 合成 过 程 一 次 触发 完成 。 


清华 大 学 计算 机 系 于 1984 年 设计 了 “无 限 词汇 汉语 语音 合成 系 
统 ”， 将 汉语 元 音 、 辅 音 和 过 波音 的 压缩 波形 参数 存 入 计算 机 内 ， 使 用 
键盘 输入 汉语 拼音 ， 计 算 机 束 可 以 调 出 相应 的 参数 ， 得 出 近似 的 语音 
波形 ， 再 将 这 些 语音 波形 合成 ， 输 出 所 需要 的 语音 。 该 系统 可 以 读 出 
所 有 的 汉语 音节 ， 也 可 以 读 出 句子 。 他 们 采用 的 方式 已 经 把 录音 编辑 
合成 方式 与 参数 编辑 合成 方式 结合 为 一 体 了 。 


e 规则 合成 方式 


上 上述 两 种 方式 部 十 以 人 发 出 的 日 然 声 首 作 为 基础 的 ， 痢 要 和 有 先 把 
所 需 的 声音 单位 存 贮 在 计算 机 中 ， 然 后 再 把 它们 组 合 起 来 输出 。 规 则 
合成 方式 不 需要 预先 由 人 来 发 声 ， 然 后 再 设法 利用 这 样 的 声 首 ， 而 是 
把 单词 或 文章 表示 为 符号 作为 输入 ， 通 过 规则 进行 语音 合成 ， 全 部 由 
计算 机 进行 自动 处 理 ， 最 后 得 到 所 需要 的 语音 。 采 用 这 种 方式 ， 有 可 
能 进行 任意 词 或 者 任意 文章 的 合成 。 


这 种 合成 方式 的 初级 阶段 是 直接 输入 发 音符 号 ， 通 过 规则 合成 语 
音 ， 但 是 ， 这 种 合成 方式 的 高 级 阶段 则 不 必 输 入 发 音符 号 ， 而 是 直接 
输入 人 们 通 香 使 用 的 字符 ， 如 英文 字母 、 日 文 假名 、 中 文 汉字 等 ， 束 
可 以 通过 规则 得 到 相应 的 语音 ， 这 就 是 " 文 语 转换 ” (text-to-speech) ° 


中 国 科学 院 声 学 研究 所 与 瑞典 旺 家 工学 院 语言 通信 和 音乐 声学 系 
合作 ， 于 1983 年 研制 成 "汉语 文 语 转换 系统 ”， 采 用 规则 合成 方式 来 合 
成 汉语 语音 。 该 系统 首先 分 析 了 汉语 的 语音 频谱 和 音 位 规则 ， 建 立 了 
合成 规则 。 可 以 通过 键盘 或 光电 阅读 装置 输入 用 汉语 拼音 拼写 的 文 
章 ， 计 算 机 根据 合成 规则 ， 读 出 合成 后 的 语 首 。 该 系统 还 可 以 根据 句 
型 调整 语调 ， 根 据 句 子 中 某 些 单词 上 标 出 的 着重 点 进行 重读 ， 它 合成 
语音 的 词汇 量 是 无 限 的 ， 已 经 可 以 用 计算 机 来 朗读 故事 。 


这 方面 的 研究 目前 在 欧美 特别 活路 。 美 国 已 制 成 DEK TALK 作为 
商品 出 售 ， 合 成 的 英语 首 质 恨 好 ， 目 然 悦耳 。 尽 管 英 语 中 从 文字 到 发 
音符 号 之 间 的 转换 十 分 复杂 ， 但 仍 有 规律 可 循 。 从 他 们 出 售 的 商品 的 
质量 来 看 ， 这 个 问题 已 经 解决 得 相当 圆满 。 日 语 中 汉字 的 读 首 常 因 上 
下 文 的 不 同 而 有 差异 ， 因 此 ， 从 文字 到 发 音符 号 之 间 的 转换 比较 困 
难 ， 但 对 于 用 假名 写 的 日 文 文章 ， 已 经 可 以 采用 规则 合成 的 方式 进行 
语音 合成 ， 并 且 已 经 实用 化 了 。 


为 了 提高 合成 语音 的 音质 ， 各 国学 者 都 投入 了 相当 的 力量 。 中 国 
竹 会 科学 院 语 言 研 究 所 近年 来 从 声学 语音 学 和 发 声 语音 学 两 方面 入 
手 ， 人 研究 汉语 语音 特征 ， 以 提高 合成 语音 的 自然 程度 ， 在 单元 音 和 符 
合 元 首 的 研究 方面 已 取得 一 定 成 绩 ， 建 立 了 汉语 普通 话 规则 合成 系 


Bi ° 


合成 单元 的 选取 征 开 发 语音 合成 系统 中 天 键 问 题 。 所 谓 合成 单 
元 ， 有 是 指 在 一 种 语音 合成 系统 中 ， 为 了 合成 无 限 词语 的 语句 而 选取 的 
语言 学 上 的 某 种 基本 单元 。 为 了 开发 出 合成 音质 较 好 的 普通 话语 音 合 
成 系统 ， 他 们 选取 了 声母 和 韵 母 这 样 的 比 音节 更 小 的 语音 单元 为 合成 
单元 ， 寻 找 出 各 种 语音 层次 上 的 音 变 规律 ， 适 时 地 调整 合成 参数 ， 这 
样 束 有 可 能 得 到 较 高 音质 的 合成 语句 。 


声学 语音 学 的 分 析 表 明 ， 普 通话 中 的 声母 和 韵母 ， 虽然 没有 什么 
一 成 不 变 的 声学 表现 与 之 一 一 对 应 ， 但 可 进一步 划分 出 若干 个 “特征 音 
段 "， 在 大 量 分 析 了 普通 话 中 有 代表 性 的 音节 的 语 谱 图 和 反复 的 合成 试 
验 之 后 ， 他 们 提出 了 “ 首 广 -声母 /韵母 - 首 段 ” (Syllable-Initial/Final- 
Segment Model， 简 称 SIFS 模 型 ) 。 根 据 SIFS 模 型 ， 从 普通 话 的 一 个 音 
节 里 ， 可 划分 出 7 种 特征 音 段 ， 按 出 现 的 前 后 顺序 排列 ， 它 们 是 : OF 
ER, OE HHE, OXER, OIRR, OTER, CRW 
段 ，@O 鼻 音 段 。 对 于 某 一 个 具体 的 音节 来 说 ， 可 能 具有 GO 一 (全 部 音 
段 ， 也 可 能 只 具有 其 中 的 某 儿 段 。 但 是 ， 任 何 音节 都 少不了 元 音 段 ， 
而 且 ， 只 要 声母 不 是 零 声 母 ， 一 般 都 会 有 过 渡 段 。 他 们 在 反复 试验 的 
基础 上 ， 建 立 了 一 个 以 60 个 声母 变 体 和 40 个 韵母 为 存 贮 单元 的 合成 参 
数 库 ， 用 这 些 参 数 能 合成 出 普通 话 的 全 部 单 音节 及 儿 化 音节 和 轻声 音 
节 。 


在 自然 的 语 流 中 ， 一 个 个 语音 的 调 音 和 发 声 是 相互 影响 的 ， 存 在 
着 协同 调 音效 应 (co-articulation) 和 协同 发 声效 应 (co-phonetion) 
协同 调 音 是 指 音 段 特 征 〈 即 音色 ) 之 间 的 相互 影响 ， 如 连 读 音 变 现 
象 ， 协 同 发 声 是 指 超 音 段 特征 ( 即 音 高 、 音 长 、 音 强 ) 之 间 的 影响 ， 
如 语音 的 韵律 特性 。 


为 了 改善 合成 语句 的 流畅 性 ， 必 须 在 合成 参数 的 过 程 中 ， 设 法 模 
拟 协 同调 音效 应 ， 如 “ 面 ”/mian/ 和 “ 包 ”/bao/ 连 读 时 ，/n/ 会 被 双 层 首 /p/ 同 
化 而 变 为 /m/。 他 们 归纳 出 音节 间 协 同调 音效 应 的 规律 ， 合 成 出 音色 清 
晰 而 流畅 的 多 音节 词语 。 


为 了 改善 合成 语句 的 目 然 度 ， 必 须 在 合成 参数 的 过 程 中 ， 设 法 模 
拟 协 同 发 声效 应 ， 考 虑 语音 的 音 高 、 音 长 、 音 强 等 韵律 特征 。 由 于 汉 
语 普通 话 的 重音 是 影响 声调 、 音 长 和 音 强 的 重要 参量 ， 他 们 把 语 流 中 
的 各 音节 的 重音 ， 当 作 控 制 韵律 特性 的 主要 参量 ， 根 据 每 一 个 音节 的 
轻重 等 级 ， 调 这 个 音节 的 调 域 、 声 母 和 韵母 的 语音 时 长 以 及 浊 声 源 
幅度 ， 制 定 了 声调 协调 规则 、 时 长 协调 规则 和 幅度 协调 规则 ， 提 高 
合成 语 首 的 目 然 度 ， 减 少 了 “机 器 味 儿 ”， 他 们 合成 的 语音 达到 了 以 假 
乱 真 的 程度 。 该 系统 的 合成 音质 在 国内 居于 领先 水 平 。 


清华 大 学 计算 机 系 在 文 语 转换 系统 的 研制 中 ， 采 用 了 以 词 为 单位 
的 合成 策略 ， 这 个 系统 不 但 能 够 合成 单字 的 语音 ， 而 且 ， 还 能 够 根据 
对 文章 的 理解 ， 进 行 自动 切 词 ， 并 根据 语言 的 上 下 文 和 音 变 规则 确定 
正确 的 发 音 ， 将 书面 的 文本 按 单词 的 自然 停顿 实时 地 读 出 来 ， 可 保持 
自然 语言 的 韵律 ， 提 高 了 文 语 转 换 的 可 懂 度 和 目 然 度 。 


在 语音 合成 中 ， 为 了 把 文本 映射 为 波形 ， 百 先 把 输入 文本 转换 成 
语音 内 部 表示 (phonemic internal representation) ， 而 为 了 生成 语音 的 
内 部 表示 ， 首 移 必 须 对 于 形形色色 的 、 上 自然 状态 的 文本 做 前 处 理 (pre- 
processing) 或 归 一 化 (normalization) ， 把 输入 的 文本 分 解 为 句子 ， 处 
理 缩写 词 、 数 字 等 等 特殊 问题 。 


目前 ， 英 语 的 文本 归 一 化 研究 已 经 取得 不 少 的 成 果 。 


英语 的 文本 归 一 化 有 三 个 任务 : 第 一 个 是 句子 的 词 例 还 原 
(sentence tokenization) ， 第 二 个 是 非 标 准 词 (non-standard words， 简 


称 NSWs) 的 处 理 ， 第 三 个 是 同形 异 义 词 的 排 歧 。 


“ 词 例 ”(token) 是 文本 中 独立 的 词汇 单元 。 所 谓 “ 词 例 还 
JR” (tokenization) ， 就 是 自动 地 把 句子 中 的 单词 作为 独立 的 词 例 切 分 
出 来 。 英 语文 本 中 的 单词 一 般 是 界限 分 明 的 ， 单 词 与 单词 之 间 存 在 罕 
日 ， 单 词 的 切 分 不 像 汉 语 书 面 文本 那样 困难 。 但 是 ， 下 列 情况 仍 需 要 
进行 切 分 ， 把 独立 的 “ 词 例 ” 找 出 来 : 


e 缩写 : 
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a, “U.S”, “ie.”，“U.K.” 都 算 一 个 词 例 。 


b 缩写 “字母 串 + 圆 点 ” 算 一 个 词 例 : i 
如 ， “Mr.” , “Mrs.” f “Eds.” ] “Prof.” ， “Dr.” ; “Co.” ， “Jan.” ; ACT i “b. 
“都 算 一 个 词 例 。 


e 连续 的 数字 : 例如 ，“123456 ，78” 是 一 个 独立 的 词 
例 。“90.7%” 带 百 分 符 号 ， 也 应 该 算 一 个 独立 的 词 例 。 分 数 “3/8” 算 一 个 
独立 的 词 例 。 日 期 <15/04/1939” 也 算 一 个 独立 的 词 例 。 


e 含有 非 字 母 符 号 的 缩写 算 一 个 词 例 : 例 
如 ,，“AT&T”，“Micro$oft”*” 都 算 一 个 词 例 。 


e 市 连 字 人 符 的 词 串 算 一 个 词 例 : 例如 ，“three-years-old”，“one- 
third", “so-called” 都 算 一 个 词 例 。 


e 市 至 日 的 某 些 习 用 符号 串 算 一 个 词 例 : UAI, “andsoon”, “ad 
hoc” 都 算 一 个 词 例 。 


e TERTS C) 的 符号 串 ， 要 还 原 成 不 同 的 词 例 : 例如 ， 
一 Lets 还 原 成 let+us 

一 Dm 还 原 成 [Ham 

一 {it that, this, there, what, where}s 还 原 成 {~}+is 


一 He's 还 原 成 (Hetis) 或 者 (Hethas) 


经 过 词 例 还 原 之 后 ， 句 子 中 的 符号 串 被 转换 成 词 例 串 。 这 样 ， 束 
为 波形 合成 提供 了 方便 。 


下 面 的 英语 文本 是 从 Enron 语 料 库 中 抽取 出 来 的 ， 我 们 来 考虑 一 下 
这 个 文本 在 处 理 上 的 困难 究竟 有 多 大 : 


He said the increase in credit limits helped B.C. Hydro achieve 
record net income of about $1 billion during the year ending March 31. 
This figure does not include any write-downs that may occur if 
Powerex determines that any of its customer accounts are not 
collectible. Cousins, however, was insistent that all debts will be 
collected: “We continue to pursue monies owing and we expect to be 


paid for electricity we have sold.” 


为 了 把 上 面 这 个 文本 的 片段 切 分 成 彼此 分 开 的 话 段 以 便 进 行 语 音 
合成 ， 我 们 需要 知道 ， 第 一 个 句子 是 在 March 31 后 面 的 那个 小 圆 点 处 结 
尾 ， 而 不 是 在 B.C 后 面 的 小 圆 点 处 结尾 ， 因 此 ，March 31 后 面 的 那个 小 


圆 点 要 还 原 成 句号 ， 单 独 切 分 出 来 ， 而 B.C 后 面 的 小 圆 点 不 能 单独 切 
分 ， 应 当 把 “B.C.” 作 为 一 个 单独 的 词 例 。 我 们 还 需要 知道 ， 在 单词 
collected 处 是 一 个 句子 的 结尾 ， 尽 管 collected 后 面 的 标点 符号 是 一 个 冒 
号 ， 而 不 是 小 圆 点 ， 因 此 ， 这 个 冒号 应 当 作为 一 个 单独 的 词 例 。 这 些 
研究 工作 的 目的 是 找 出 句子 中 的 “ 词 例 ”， 所 以 ， 叫 做 “ 词 例 还 原 ”。 


英语 文本 归 一 化 的 第 二 个 任务 是 处 理 非 标 准 词 (non-standard 
words) 。 非 标准 词 是 指 那 些 在 标准 的 发 首 词典 (pronunciation 
dictionary) 中 没有 收录 的 单词 ， 包 括 数字 、 首 字母 缩写 词 、 普 通缩 写 
词 等 等 ， 由 于 这 些 非 标准 词 的 数量 几乎 是 无 限 的 ， 发 音 也 没有 明确 的 
标准 ， 因 而 在 标准 的 发 音 词典 中 难以 注 明 它们 的 准确 发 音 。 例 如 ， 
March 31 的 发 音 应 当 是 March thirty-first, ， 而 不 是 March three one; $1 
billion 的 发 音 应 当 是 one billion dollars， 在 billion 的 后 面 应 当 加 一 个 单词 
dollars。 它 们 都 没有 按照 英语 的 一 般 习 惯 来 发 音 ， 需 要 特殊 对 符 。 


此 外 ， 英 语文 本 归 一 化 还 要 人 研究 同形 异 义 词 的 排 上 层 (homograph 


disambiguation) 问题 。 


下 面 ， 我 们 分 别 讨论 英语 文本 归 一 化 中 的 这 些 问题 。 


一 一 句子 的 词 例 还 原 


我 们 在 上 面 看 到 了 两 个 例子 ， 说 明 有 英语 句子 的 词 例 还 原 是 有 一 定 
难度 的 ， 因 为 句子 的 边界 不 总 是 用 小 圆 点 来 标识 ， 有 时 也 可 以 用 如 像 
冒号 这 样 的 标点 符号 来 标识 。 当 以 一 个 缩写 词 来 结束 句子 的 时 候 ， 还 
会 出 现 一 个 附 率 的 问题 ， 这 时 ， 缩 写 词 结尾 处 的 小 圆 点 会 起 双重 的 作 
用 。 例 如 ， 在 句子 “The group included Dr. J. M. Freeman and T. Boone 


Pickens Jr.” 中 ,“ 开 ?最 后 的 小 圆 点 ， 既 可 以 表示 Junior 的 缩写 (T. Boone 
Pickens 工 .表示 “小 工 Boone Pickens”) ， 有 可 以 表示 句 末 的 句号 。 这 个 
小 加 点 产生 了 歧义 。 


英语 句子 的 词 例 还 原 的 一 个 关键 部 分 就 是 小 圆 点 的 排 疏 问题。 大 

多 数 英 语句 子 词 例 还 原 的 算法 都 比 确 定性 算法 (deterministic 

algorithm) 要 更 加 复杂 一 些 ， 特 别 是 这 些 算法 都 是 通过 机 器 学 习 

(machine learning) 的 方法 来 训练 ， 而 不 是 用 手工 建立 的 。 在 进行 这 

样 的 训练 时 ， 我 们 首先 要 手工 标注 市 有 句子 边界 的 一 个 训练 集 ， 然 后 

使 用 任何 一 种 有 指导 的 机 器 学 习 方 法 (supervised machine learning) 训 
练 一 个 分 类 器 (classifier) 来 判定 并 标注 句子 的 边界 。 


更 加 具体 地 说 ， 在 开始 的 时 候 ， 我 们 可 以 把 输入 文本 还 原 成 彼此 
之 间 有 空 日 分 隔 开 的 词 例 ， 然 后 ， 选 择 包含 “! ”，“.” 或 者 “? ”三 个 符 
号 中 的 任何 一 个 符号 (也 可 能 包含 冒号 “<: ”) 的 词 例 作为 句子 的 结 
尾 。 在 手工 标注 了 一 个 包含 这 样 的 词 例 的 语料库 之 后 ， 我 们 就 训练 一 
个 分 类 絮 ， 对 于 这 些 词 例 内 的 潜在 句子 边界 字符 ， 进 行 二 元 判定 ， 判 
定 某 个 词 例 是 EOS (end-of-sentence， 人 句子 结尾 ) ， 还 是 not-EOS ( 非 句 
子 结尾 ) 。 


这 种 分 类 右 成 功 与 否 依 赖 于 在 分 类 时 抽出 的 特征 。 


让 我 们 来 研究 在 给 句子 边界 排 层 的 时 候 可 能 用 得 着 的 某 些 特征 模 
板 ， 其 中 的 句子 边界 符号 candidate (候选 成 分 ) 表示 在 我 们 训练 的 少量 
数据 中 可 能 标注 为 句子 边界 的 茶 个 符号 : 


e Prefix: 前 级 (处 于 candidate 之 前 的 候选 词 例 部 分 ) 


e Suffix: 后 级 (处 于 candidate 之 后 的 候选 词 例 部 分 ) 


e PrefixAbbreviation 或 SuffixAbbreviation: 前 缀 或 后 绥 是 不 是 ( 
BAS FA) 缩写 词 


e PreviousWord: 处 于 candidate 之 前 的 单词 
e NextWord: 处 于 candidate 之 后 的 单词 


e PreviousWordAbbreviation: 处 于 candidate 之 前 的 单词 是 不 是 一 个 
缩写 词 


e NextWordAbbreviation: 处 于 candidate 之 后 的 单词 是 不 是 一 个 缩 
写 词 


我 们 来 研究 下 面 的 例子 : 
ANLP Corp. chairman Dr. Smith resighed. 


对 照 上 面 的 特征 模板 ， 在 的 单词 “Corp.” 中 的 小 圆 点 “.” 的 特征 值 


E 
JE: 


PreviousWord=ANLP 
NextWord=chairman 
Prefix=Corp 

Suffix=NULL 
PreviousWordAbbreviation=1 
NextWordAbbreviation=0 


如 于 我 们 的 训练 集 足 够 天， 那么， 我 们 也 可 以 找到 一 些 天 于 句子 
边界 的 词汇 方面 的 线索 。 例 如 ， 某 些 单词 可 能 倾 问 于 出 现在 句子 的 开 


头 ， 某 些 单词 可 能 倾向 于 出 现在 句子 的 结尾 。 这 样 ， 我 们 又 可 以 加 进 
去 如 下 的 特征 : 


e Probability | candidate occurs at end of sentence| : 表示 candidate 


出 现 于 句子 结尾 的 概率 。 


e Probability | word following candidate occurs at beginning of 


sentence] : 表示 跟随 在 出 现 于 句子 开头 的 candidate 的 单词 的 概率 。 


上 面 所 述 的 特征 ， 大 部 分 是 与 具体 的 语言 无 关 的 ， 此 外 ， 我 们 还 
可 以 使 用 一 些 针 对 具体 语言 的 特征 。 例 如 ， 在 英语 中 ， 句 子 一 般 式 以 
大 写字 母 开 头 的 ， 所 以 ， 我 们 还 可 以 使 用 如 下 的 特征 : 


e Case of candidate: candidate 的 大 小 写 情况 ， 例 如 ，Upper, Lower, 
Allcap, Numbers 


e Case of word following candidate: 跟随 在 candidate 后 面 的 单词 的 
大 小 写 情况 例如 ，Upper Lower, Allcap, Numbers 


类 似 地 ， 我 们 还 可 以 使 用 缩写 词 的 某 些 次 类 的 信息 ， 人 例如， 尊称 
或 头衔 (Dr, Mr, Gen) ， 公 司 名 称 (Corp., Inc.) ， 月 份 名 称 
(Jan., Feb.) 。 
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(logical regression) 和 决策 树 (decision tree) 是 两 种 最 普通 的 方法 ; 
逻辑 回归 的 精确 度 比 决策 树 的 精确 度 要 高 一 些 。 


一 一 非 标准 词 的 归 一 化 


非 标 准 词 是 诸如 数字 或 缩写 词 之 类 的 词 例 ， 在 英语 中 专 有 名词 的 
读音 很 特别 ， 词 典 中 一 般 查 不 出 来 ， 也 可 以 算 为 非 标准 词 。 在 语音 合 
成 中 ， 在 计算 机 读 出 它们 之 前 ， 需 要 把 它们 扩充 为 英语 单词 的 序列 。 


英语 非 标 准 词 的 处 理 是 很 困难 的 ， 因 为 它们 总 和 在 读音 方面 存在 
靶 义 。 例 如 ， 在 不 同 的 上 下 文中 ，1750 这 个 数字 至 少 可 以 有 4 种 不 同 的 


BE: 
Seventeen fifty: | (TE*The European economy in 1750” 中 ) 
One seven five zero: 《在 “The password is 1750”) 
Seventeen hundred and fifty: — (1£*1750 dollars” 中 ) 
One thousand, seven hundred, and fifty: 《在 “1750 dollars”) 
相似 的 歧义 问题 也 发 生 在 罗马 数字 IV 或 2/3 等 非 标 准 词 的 读音 


IV 可 以 读音 为 four， 或 者 读 为 fourth， 或 者 也 可 以 按照 字母 I 和 V 分 
别 来 读 ， 这 时 ，IV 的 含义 是 “intravenous”( 静 脉 内 的 ) ° 


2/3 可 以 读 为 two thirds ， 或 者 读 为 February third， 或 者 读 为 March 
second， 或 者 读 为 two slash three ° 


某 些 非 标准 词 是 由 字母 构成 的 ， 例 如 ， 缩 写 词 (abbreviation) 
字母 序列 (letter sequences) ， 首 字母 缩写 词 (acronyms) 等 。 


缩写 词 读音 时 ， 一 般 都 要 进行 扩充 (expanded) ; 所 以 ，Wed 要 读 
Wednesday, Jan 1 要 读 为 January first。 像 UN, DVD, PC, IBM 这 样 的 字 
母 序 列 (letter sequences) 读音 时 ， 要 按照 字母 在 序列 中 的 顺序 ， 一 个 
一 个 地 来 读 。 像 IKEA, MoMA, NASA 和 UNICEF 这 样 的 首 字母 缩写 词 读 


音 时 ， 要 把 它们 当做 一 个 单词 来 读 。 这 里 也 会 出 现 层 义 问题 。Jan 按 照 
一 个 单词 来 读音 呢 (人 名 Jan) ? 还 是 扩充 为 月 份 名 称 January 来 读音 ? 
这 利 间 会 使 为 我 们 陷入 举 棋 不 定 的 困境 。 


我 们 可 以 把 英语 中 数字 和 字母 组 成 的 非 标准 词 归 纳 为 字母 非 标 准 
词 和 数字 非 标 准 词 两 大 类 型 ， 每 一 个 大 类 又 可 以 进一步 细 分 为 若干 个 
小 类 . 


e 字母 非 标 准 词 
EXPN (Abbreviation， 缩 写 词 ) : 例如 ，adw N.Y., mph, gov't 


LSEQ (Letter Sequence， 字 母 序 列 ) : fflül, DVD, D.C., PC, UN, 
IBM 


ASWD (Read as word， 按 一 个 单词 读音 ) : fü, IKEA, R4 
词 ， 专 有 名 词 


e 数字 非 标 准 词 
NUM (Number cardinal， 基 数 词 ) : 例如 ，12, 45, 1/2, 0.6 


NORD (Number ordinal， 序 数 词 ) : 例如 ，May 7, 3rd, Bill, Gates 
Ul 


NTEL (Telephone or part of telephone， 电 话 号 码 或 电话 号 码 的 一 部 
: 212-555-5423 


N 
5> 
M 


NDIG (Number as digit， 数 字号 码 ) : Room 101 


NIDE (Identifier, R5513) : 747, 386, 15, pc110, 3A 


NADDR (Number as street address， 街 道 地 址 号 码 ) : 747, 386, 15, 
pc110, 3A 


NZIP (Zip code or BO Box， 邮 政 编码 或 信箱 号 码 ) : 91020 
NTIME (Time， 时 间 ) : 3.20, 11: 45 

NDATE (Date, HEB) : 2/28/05, 28/02/05 

NYER (Years, ££fV) : 1988, 80s, 1900s, 2008 


MONEY (Money, US or other ， 美 元 或 其 他 货币 ) : $3.45, 
HK$300, Y20,200, $200K 


BMONEY (Money tymy/billions， 万 亿 [U/ 百 万 /十 亿 的 货币 ) : $3.45 


billion 
PRCT (Percentage, Hiatt) : 75%, 3.4% 


每 种 类 型 非 标准 词 都 有 一 个 或 儿 个 特定 的 实际 读 法 。 例 如 ， 年 代 
(NYER) 通常 按 “ 双 对 式 读 法 ”(\paired method) 来 读 ， 其 中 每 一 对 数 
字 按 照 一 个 整数 来 读音 (例如 ，1750 读 为 seventeen fifty) ; 而 美国 的 
邮政 编码 (NZIP) 通常 按 “顺序 式 读 法 ”serial method) 来 读 ， 序 列 中 
的 每 一 个 数字 单独 读音 (例如 ，94110 读 为 nine four one one zero) ° $3 
币 (BMONEY) 这 种 类 型 的 读 法 要 处 理 一 些 特异 的 表达 形式 。 例 如 ， 
$3.2 billion 在 读音 的 时 候 要 在 结尾 加 一 个 单词 dollars， 读 为 three point 
two billion dollars。 对 于 字母 非 标准 词 的 读 法 ， 我 们 有 EXPN, LSEQ 和 
ASWD 等 类 型 。EXPN 用 于 诸如 “N.Y.” 这 样 的 缩写 词 ， 读 的 时 候 要 进行 
扩充 ; LSEQ 用 于 读 那 些 要 按照 字母 序列 来 读音 的 首 字 母 缩写 词 ; 
ASWD 用 于 读 那 些 要 按照 单词 来 读音 的 首 字母 缩写 词 。 


非 标准 词 的 处 理 至 少 有 三 个 步骤 : 词 例 还 原 (tokenization) ， 分 
类 (classification) ， 扩 充 (expansion) 。 词 例 还 原 用 于 分 割 和 识别 漆 
在 的 非 标准 词 ， 分 类 用 于 给 非 标 准 词 标 上 面 所 壕 的 那些 读音 类 型 ， 扩 
充 用 于 把 每 一 个 类 型 的 非 标准 词 转换 为 标准 词 的 符号 串 。 


在 词 例 还 原 这 个 步 又 ， 我 们 可 以 使 用 空 日 把 输入 文本 还 原 成 词 
例 ， 在 词 例 与 词 例 之 间 用 空 昌 分开， 然后 假定 在 发 音 词典 中 没有 的 单 
词 都 是 非 标 准 词 。 一 些 更 加 细致 的 词 例 还 原 算 法 还 可 以 处 理 某 些 词典 
中 业已 包含 菜 些 缩写 词 这 样 的 事实 。 例 如 ，CMU 发 音 词典 就 包含 了 缩 
写 词 st, mr, mrs 的 发 音 《尽管 这 些 发 音 不 正确 ) 以 及 诸如 mon, tues, nov, 
dec 等 日 期 和 月 份 的 缩写 词 。 因 此 ， 除 了 那些 没有 看 到 的 单词 之 外 ， 我 
们 还 有 必要 给 下 字母 缩写 词 标 注 发 首 ， 并 把 单字 母 的 词 例 作 为 潜在 的 
非 标准 词 来 处 理 。 词 例 还 原 算 法 还 需要 对 于 那些 包含 两 个 词 例 的 组 合 
分 隔 成 不 同 的 单词 ， 例 如 ，2-car 或 RVing 等 。 我 们 可 以 使 用 简单 的 启发 
式 推理 方法 来 分 隔 单词 ， 例 如 ， 把 破 折 号 作为 分 割 的 标志 ， 把 大 写字 
母 与 小 写字 母 转 换 之 处 作为 分 割 的 标志 ， 等 等 。 


下 一 个 步 又 是 分 类 ， 也 束 是 标注 非 标 准 词 的 类 型 。 使 用 倘 单 的 正 
则 表达 式 就 可 以 探测 出 很 多 非 标准 词 的 类 型 。 例 如 ，NYER 可 以 使 用 如 
下 的 正则 表达 式 来 探测 : 


/ (1 [89] [0-9] [0-9] ) | (20 [0-9| [0-9] ) / 


其 他 类 型 的 规则 写 起 来 比较 困难 ， 所 以 ， 使 用 帝 有 很 多 特征 的 机 
绥 学 习 分 类 亏 来 进行 分 类 将 会 更 加 有 效 。 


为 了 区 分 字母 非 标准 词 ASWD, LSEQ 和 EXPN 等 不 同 的 类 型 A] 
可 以 使 用 组 成 成 分 的 字母 的 一 些 特征 。 我 们 在 这 里 举例 简单 地 说 一 
Wi: 全 是 大 写字 母 的 单词 (IBM, US) 可 以 归 入 LSEQ 这 一 类 ， 带 有 单 


引号 的 全 是 小 写字 母 组 成 的 一 些 比较 长 的 单词 (gov't, capn) 可 以 归 入 
EXPN 这 一 类 ， 带 有 多 个 元 音 的 全 是 大 喜 字 母 组 成 的 单词 (NASA, 
IKEA) 可 以 归 入 ASWD 这 一 类 。 


另外 一 个 很 有 用 的 特征 是 相 邻 单词 的 辨识 。 我 们 来 研究 如 像 3/4 这 
样 的 歧义 字符 串 ， 它 可 以 归 入 NUM (three-fourths) 或 者 归 入 NDATE 
(march third) 。 归 入 NDATE 时 ， 它 的 前 面 可 能 出 现 单词 on， 后 面 可 
能 单词 of， 或 者 在 周围 单词 的 革 个 地 方 出 现 单词 Monday。 与 此 不 同 ， 
归 入 NUM 时 ， 它 的 前 面 可 能 是 另外 一 些 数字 ， 后 面 可 能 出 现 如 像 mile 
和 inch 之 类 的 表示 计量 单位 的 单词 。 类 似 地 ， 如 像 VII 这 样 的 罗马 数 
字 ， 当 前 面 出 现 Chapter, part 或 者 Act 等 单词 时 ， 可 能 倾 喇 于 归 入 NORD 
(seven) ， 当 在 相 邻 单词 中 出 现 king 或 者 Pape 之 类 的 单词 时 ， 就 可 能 
倾向 于 归 入 NUM (seventh) 。 这 些 上 下 文 单词 可 以 通过 手工 的 方式 选 
择 作 为 特征 ， 也 可 以 通过 诸如 决策 表 (decision list) 算法 这 样 的 机 器 学 
习 技 术 选 择 作 为 特征 。 


如 果 把 上 述 的 各 种 办 法 结合 起 来 ， 建 立 一 个 机 器 学 习 的 分 类 器 ， 
这 样 就 能 大 大 地 提高 分 类 的 效能 。 例 如 ，2001 年 斯 普 劳 特 (Sproat) 等 
研制 的 非 标 准 词 分 类 器 (NSW classifier) 使 用 了 136 个 特征 ， 其 中 包括 
诸如 “全 是 大 写字 母 ”, “含有 两 个 元 音 ”, RARR”, WAKE E 
基于 字母 的 特征 ， 还 包括 诸如 Chapter on, king 等 特殊 的 单词 是 否 在 周 
围 的 上 下 文中 出 现 的 二 元 特征 。 斯 普 劳 特 还 提出 了 一 个 基于 规则 的 粗 
分 类 器 (rough-draft classifier) ， 其 中 使 用 手写 的 正则 表达 式 来 给 很 多 
表示 数字 的 非 标准 词 分 类 。 这 个 粗 分 类 器 的 输出 可 以 在 主 分 类 器 

(main classifier) 中 作为 另外 的 特征 来 使 用 。 


为 了 建立 这 样 的 主 分 类 器 ， 我 们 需要 一 个 手工 标注 的 训练 集 ， 其 
中 的 每 一 个 词 例 都 标 出 它们 的 非 标准 词 分 类 范畴 ;斯 普 萎 特 台 建立 了 


一 个 这 样 的 手工 标注 数据 库 。 给 出 了 标注 训练 集 ， 我 们 束 可 以 使 用 任 
何 一 种 有 监督 的 机 絮 学 习 算 法 ， 例 如 前 面 讨论 过 的 人 逻辑 回归 算法 、 决 
策 树 算法 等 。 然 后 ， 我 们 训练 分 类 器 来 使 用 这 些 特征 ， 从 而 预测 手工 
标注 的 非 标准 词 的 分 类 范畴 。 


非 标 准 词 处 理 的 第 三 个 步骤 是 把 非 标 准 词 扩 充 为 一 般 的 单词 。 
EXPN 这 种 非 标准 词 的 类 型 扩充 起 来 是 非 钊 困难 的 。EXPN 这 种 类 型 包 
括 缩写 词 和 像 NY 这 样 的 首 字 母 缩 写 词 。 一 般 地 说 ， 扩 充 时 需要 借助 于 
缩写 词 词典 ， 并 且 要 使 用 同音 异 义 词 的 排 歧 算法 来 处 理 玻 义 问 题 。 


其 他 的 非 标准 词类 型 的 扩充 一 般 都 是 确定 性 的 。 很 多 的 扩充 都 是 
简单 易 行 的 。 例 如 ，LSEQ 把 非 标准 词 中 的 每 一 个 字母 扩充 为 单词 序 
列 ; ASWD 把 非 标准 词 读 为 一 个 单词 ， 等 于 把 非 标准 词 扩充 为 它 自 
C; NUM 把 数字 扩充 为 表示 基数 词 的 单词 序列 ， NORD 把 数字 扩充 为 
表示 序数 词 的 单词 序列 NDIG 和 NZIP 都 分 别 把 数字 扩充 为 相应 的 单词 
序列 。 


其 他 类 型 的 扩充 要 稍微 复杂 一 些 ，NYER 把 年 代 按 两 对 数字 来 扩 
充 ， 如 果 年 代 以 00 结 尾 ， 那 么 ， 年 代 的 4 个 数字 则 按照 基数 词 来 读音 
(2000 读 为 two thousand) ， 或 者 按照 “< 百 位 式 读 法 ”(hundreds 
method) 来 读音 (1800 读 为 eighteen hundred) 。NTEL 把 电话 号 码 扩 充 
为 数字 序列 ， 也 可 以 把 电话 号 码 的 最 后 4 个 数字 按照 “ 双 对 式 数字 读 
ik" (paired digit) 来 读音 ， 每 一 对 数字 读 为 一 个 整数 。 电 话 号 码 还 可 
以 采用 所 谓 的 “跟踪 单位 读 法 ” (trailing unit) 来 读音 ， 以 若干 个 零 为 结 
尾 的 数字 ， 非 零 的 数字 部 分 按 顺 序 式 读 法 来 读 首 ， 零 的 部 分 按 适 当 的 
进位 制 来 读 首 (例如 ，876 一 5000 的 读 首 为 eight seven six five 
thousand) 。 


当然 ， 这 些 扩 充 很 多 是 与 方言 有 关 的 。 在 澳大利亚 的 英语 中 ， 电 
话 号 码 33 这 个 数字 序列 通常 读 为 double three。 在 其 他 语言 中 ， 非 标准 
词 的 归 一 化 会 出 现 一 些 特殊 的 困难 问题 。 例 如 ， 在 法 语 或 德语 中 ， 除 
了 上 上述 的 情况 之 外 ， 归 一 化 还 与 语言 的 形态 性 质 有 关 。 在 法 语 中 ，1 
fille aie 这 个 短语 归 一 化 为 une file， 而 1 garcon (一 个 小 伙 
子 ) 这 个 短语 却 归 一 化 为 un garcon。 RU. 在 德语 中 ， 由 于 名 词 
RA ca er: 利 四 世 ) 这 个 短语 可 以 分 别 归 一 化 为 
Heinrich der Vierte，Heinrich des Vierten，Heinrich dem Vierten ， 或 者 


Heinrich den Vierten 等 。 


英语 中 的 专 有 名 词 也 属于 非 标 准 词 。 由 于 英语 的 发 音 词典 中 通常 
不 收 专 有 名 词 。 在 很 多 实际 的 应 用 中 ， 这 是 一 个 很 严重 的 问题 。 专 有 
名 词 包括 人 名 (人 的 名 字 和 人 的 姓氏 ) 、 地 理 名 称 (城市 名 、 街 道 名 
和 其 他 的 地 名 ) 和 商业 机 构 名 称 等 。 


我 们 这 里 仅 考 虑 人 名 ，2003 年 ， 施 皮 格 尔 (Spiegel) 估计 ， 仅 仅 
在 美国 ， OE E ai 200 万 是 一 个 非常 
大 的 数字 。 正 是 由 于 这 样 的 原因 ， 大 规模 的 语音 合成 系统 都 包含 一 部 
很 大 的 专 有 名 词 的 发 音 词 典 。 


Fri DPR AAA EB? 


1992 年 ， 利 贝尔 曼 (Liberman) 和 印 奇 公布 了 一 个 专 有 名 词 的 词 
表 ， 包 含 1987 年 从 Donnelly 市 场 组织 收 集 的 150 万 个 专 有 名 词 (覆盖 了 
美国 的 7 200 万 个 家 庭 ) 。 


他 们 发 现 ， 在 容量 为 4 400 万 单词 的 AP newswire 语 料 库 中 ， 包 含 5 
万 个 专 有 名 词 的 词典 履 盖 专 有 名 词 的 词 例 数 可 以 达到 70%。 有 趣 的 是 ， 
很 多 不 包含 在 词典 中 的 其 他 专 有 名 词 可 以 通过 简单 地 修改 这 5 万 个 专 有 


名 词 而 得 到 ， 例 如 ， 给 词典 中 的 专 有 名 词 Walter 或 Lucas 加 上 带 中 重音 
的 后 级 ， 就 可 以 得 到 新 的 专 有 名 词 Walters 或 Lucasville。 其 他 的 发 首 还 
可 以 通过 韵律 类 推 的 方法 得 到 。 例 如 ， 如 果 我 们 知道 人 和 名 Trotsky 的 发 
音 ， 而 不 知道 人 名 Plotsky 的 发 音 ， 我 们 用 词 理 的 pl/ 来 蔡 换 Trotsky 词 百 
的 /tr/， 就 可 以 得 到 Plotsky 的 发 首 。 


诸如 此 类 的 技术 ， 包 括 形态 分 解 、 类 推荐 换 、 以 及 把 未 知 的 专 有 
名 词 映 射 到 已 经 存储 在 词典 中 的 拼写 变 体 的 技术 ， 已 经 在 专 有 名 词 的 
发 音 研究 中 取得 了 一 定 的 成 绩 。 但 是 ， 总 的 说 来 ， 专 有 名 词 的 发 音 仍 
然 是 一 个 困难 的 问题 。 


同形 异 义 词 的 排 层 


上 上方 所 述 的 非 标准 词 处 理 算法 的 目的 在 于 对 于 每 一 个 非 标 准 词 
(NSW) 确定 一 个 标准 词 的 序列 ， 以 便 把 它们 读 出 来 。 然 而 有 的 时 
候 ， 尽 管 是 一 个 标准 词 ， 要 想 确 定 它 的 读音 仍然 非常 困难 。 同 形 寞 》 
ij (homograph) 的 情况 就 是 如 此 。 同 形 异 义 词 是 拼写 相同 而 读音 不 同 
的 词 。 这 里 是 英语 同形 异 义 词 use, live 和 bass 的 几 个 例子 : 


It's no use (/yuws/) to askto use (/y uw z/) the telephone. 
Do you live (/lihv/) near a zoo with live (/l ay v/) animals? 
I prefer bass (/b ae s/) fishing to playing the bass (/b ey s/) 


guitar. 


为 了 出 版 时 的 方便 ， 我 们 这 里 没有 采用 国际 音标 IPA 而 采用 了 
ARPAbet， 这 有 是 目前 计算 语言 学 中 经 常 使 用 的 一 种 非常 先进 的 标 音 方 
法 ， 与 ASCII 码 完全 兼容 ， 便 于 计算 机 进行 信息 交换 。 国 内 语言 学 办 还 


不 熟悉 ， 关 于 ARPAbet 的 详细 介绍 ， 可 参看 冯 志 伟 和 孙 乐 译 的 《自然 语 
言 处 理 综 论 》 四 。 


法 语 中 的 身 s 是 同形 异 义 词 ， 含 义 为 “儿子 ”时 ， 读 为 [fis] ， AM 
为 “ 线 强 "时 ， 读 为 [fil] ; 法 语 的 fier 和 est 有 多 个 发 音 ，fier 的 含义 
为 “骄傲 ”或 “信赖 * 时 ， 发 首 各 不 相同 ; est 的 含义 为 “是 ”或 “东方 时， 发 
音 也 各 不 相同 。 


幸运 的 是 ， 同 形 异 义 词 的 排 层 可 以 利用 词类 信息 。 在 英语 (以 及 
法 语 和 德语 这 些 类 似 的 语言 中， 同形 异 义 词 的 两 个 不 同 的 形式 往往 
倾向 于 分 属 不 同 的 词类 。 例 如 ， 上 例 中 use 两 个 形式 分 别 属于 名 词 和 动 
词 ，live 的 两 个 形式 分 别 属于 动词 和 名 词 。 


ALR SUB APLAR, TEAP newswire 语 料 库 的 4 千 4 百 万 单词 中 ， 
出 现 频 度 最 高 的 同形 异 义 词 都 可 以 使 用 词类 信息 来 排 上 层 。 他 们 用 来 排 


歧 的 15 个 频 度 最 高 的 单词 是 use, increase, close, record, house, contract, 


lead, live, lives, protest, survey, project, separate, present, read ° 


由 于 词类 知识 已 经 足够 处 理 很 多 同形 异 义 词 的 排 收 问题 ， 所 以 ， 
在 实际 应 用 中 ， 我 们 对 于 标 有 词类 信息 的 这 些 同形 异 义 词 存储 不 同 的 
发 音 ， 以 便 进 行 同 形 异 义 词 的 排 紧 ， 然 后 ， 对 于 上 下 文中 给 定 的 同形 
异 义 词 ， 运 行 词 类 标注 程序 来 选择 正确 的 读音 。 


然而 ， 还 有 一 些 同形 异 义 词 的 不 同 发 首 只 对 应 于 同样 的 词类 。 在 
上 面 的 例子 中 ， 我 们 看 到 bass 的 两 个 不 同 的 发 首 /b ae s/ 和 /b ey s/， 但 它 
们 都 对 应 于 名 词 (一 个 含义 表示 “ 鱼 ”"， 一 个 含义 表示 “乐器 ”) 。 男 一 个 
这 样 的 例子 是 lead (对 应 于 两 个 名 词 的 发 首 各 不 相同 ， 表 示 “ 导 线 ” 的 名 
词 发 音 为 /iy d/， 表 示 “ 金 属 ” 的 名 词 的 发 首 为 /| eh d/) 。 我 们 也 可 以 把 
AE EGRE YE 〈 前 面 我 们 把 这 样 的 排 必 看 成 是 非 标准 词 的 排 岐 ) 


看 成 是 同形 异 义 词 的 排 歧 。 例 如 ,，“Dr.” 具 有 doctor (博士 ) 或 drive (57 
JR) m X, “st RA Sant (神圣 ) Stree (街道 ) 歧义 。 最 后 ， 还 有 
一 些 单词 的 大 写字 母 有 差别 ， 如 polish/Polish， 这 些 单词 仅 只 在 句子 开 
头 或 全 部 字母 都 大 写 的 文本 中 才 可 以 看 成 同形 异 义 词 。 


在 实际 应 用 中 ， 后 面 这 几 种 同形 异 义 词 是 不 能 使 用 词类 信息 来 解 
决 的， 在 语音 合成 系统 中 通常 可 以 忽略 。 另 外 ， 我 们 也 可 以 尝试 使 用 
词义 排 收 算法 来 解决 这 样 的 问题 ， 例 如 ， 我 们 可 以 使 用 雅 罗 夫 斯 基 

(1997) 的 决策 表 (decision-list) 算法 来 排 歧 。 


最 后 ， 数 字 的 发 音 旦 一 个 特别 复杂 的 问题 。 电 话 号 码 “947-2020” 的 
H 然 的 Bom X mH Si 该 


E 

最 

是 "nine"— "four"— "seven"—-"twenty"— "twenty" 1 而 ^ 
“nine ”__“four?—_“seven”—“two”—“zero” —“two” —“zero” o 


AIR SRPA ERARE ER HR SEE A OP AAYA: 


e 顺序 式 读 法 (Serial) : 每 个 数字 单独 读音 。 例 如 ，8765 的 读音 


为 “eight seven six five" ° 


e 组 合式 读 法 (Combined) : 数字 串 按照 一 个 整数 来 读音 ， 每 个 
数字 根据 它 所 在 的 位 置 分 别 加 读 “thousand、hundred” 等 进位 数 。 例 如 ， 
8765 的 读音 为 “eight thousand seven hundred sixty five”。 


e 双 对 式 读 法 (Paired) : 数字 一 对 一 对 地 按 一 个 整数 来 读音 ; 如 
果 数 字 有 奇数 个 ， 则 第 一 个 数字 单独 读音 。 例 如 ，8765 的 读音 


为 “eighty-seven sixty-five” ° 


e 百 位 式 读 法 (Hundreds) : 四 位 的 数字 串 可 按 百 位 记 数 方式 来 读 
音 。 例 如 ，8765 的 读音 为 “eighty-seven hundred (and) sixty-five”。 


e 跟踪 单位 读 法 (Trailing Unit) : 以 若干 个 零 为 结尾 的 数字 ， 非 
零 的 数字 部 分 按 顺 序 式 读 法 来 读音 ， 零 的 部 分 按 适 当 的 进位 制 来 读 
音 。 例 如 ，8765000 的 读音 为 “eight seven six five thousand”。 


上 面 我 们 介绍 了 英语 文本 归 一 化 的 一 些 主要 研究 成 果 ， 下 面 ， 我 
们 来 看 一 看 在 汉语 语 首 合成 中 的 书面 文本 归 一 化 问题 。 


汉语 书面 文本 的 归 一 化 实际 上 是 在 目 然 语言 信息 处 理 中 的 语言 规 
划 问 题 ， 我 们 提出 这 个 问题 的 目的 ， 有 是 为 了 引起 我 国 的 语言 规划 专家 
在 天 注 社 会 生活 中 的 语言 规划 问题 的 同时 ， 也 关注 一 下 目 然 语言 信息 
处 理 中 的 语言 规划 问题 。 


我 们 认为 ， 汉 语 的 文本 归 一 化 与 英语 的 文本 归 一 化 古 相似 的 ， 在 
汉语 的 文本 归 一 化 中 ， 也 存在 词 例 还 原 ， 非 标准 词 处 理 ， 同 形 异 义 词 
处 理 等 问题 。 下 面 逐 一 说 明 。 


一 一 汉语 文本 的 词 例 还 原 


汉语 的 书面 文本 是 一 个 连续 的 汉字 流 ， 除 了 标点 符号 之 外 ， 单 词 
与 单词 之 间 没 有 空白 。 在 语音 合成 中 ， 为 了 识别 汉语 的 单词 以 便 查 询 
发 首 词典 ， 必 须 把 隐藏 在 汉语 书面 文本 中 的 单词 找 出 来 ， 也 束 古 要 进 
ITH” (word segmentation) 。“ 切 词 " 是 汉语 书面 文本 归 一 化 的 关键 
问题 ， 也 是 中 文 信息 处 理 的 一 个 困难 问题 。 关 于 汉语 书面 文本 的 目 动 
切 词 ， 很 多 文章 都 有 介绍 ， 这 里 就 不 改 述 了 。 


在 经 过 切 词 处 理 后 输出 的 文件 中 ， 汉 语 单词 边界 用 空格 (space) 
表示 ， 要 特别 注意 人 名 、 地 名 和 机 构 名 以 及 术语 的 切 词 是 否 正确 ， 应 
当 性 照 《汉语 拼音 正 词 法 基本 规则 》《GB13725 信 息 处 理 用 现代 汉语 
分 词 规范 》 等 规范 进行 判断 ， 为 波形 合成 做 好 准备 。 


一 一 汉语 文本 的 非 标 准 词 处 理 


汉语 书面 文本 中 的 非 标准 词 是 诸如 数字 或 专 有 名 词 之 类 的 词 ， 它 
们 的 读音 比较 特殊 ， 一 般 不 会 存储 在 发 音 词典 中 ， 在 语音 合成 中 ， 在 
计算 机 读 出 它们 之 前 ， 需 要 注 出 它们 的 读音 。 


汉语 的 非 标准 词 包括 如 下 几 种 : 


e 具有 特殊 读音 的 姓氏 字 : 英语 中 的 专 有 名 词 是 很 重要 的 非 标准 
词 。 在 汉语 中 ， 姓 氏 字 也 可 以 看 成 表示 姓氏 的 词 ， 所 以 ， 也 是 一 种 非 
标准 词 ， 在 语音 合成 时 ， 要 区 别 姓 氏 字 的 特殊 读音 。 如 ,“ 曾 国 
镁 ?和 “曾经 ”中 的 “ 曾 ” 字 ， 前 者 是 姓氏 字 ， 读 为 [zengi] ， 后 者 是 一 个 
语素 ， 读 为 [ceng2| |! o 


例句 : 


记者 融 厦 这 个 问题 采访 了 中 国 食 文化 全 究 会 会 长 曾 老 。 这 位 
75 多 老人 曾 参加 八路 军 ， 四 面 八方 都 到 过 。 


其 中 的 两 个 “ 曾 >”， 第 一 个 “ 兽 ” 是 姓氏 ， 应 读 为 [zengi] ， 后 一 
个 “ 曾 ” 应 读 为 [ceng2] ° 


Mad, “HAZ” (AG) 和 “仇恨 ?中 的 “ 仇 >， 前 者 是 姓氏 ， 读 为 
[qiu2] ， 后 者 读 为 [chou2] ° 


例句 : 
EHIE, ZREN ° 
其 中 的 “ 仇 ?” 是 姓氏 ， 应 读 为 [qiu2] 。 
e 数字 : 
汉语 中 的 数字 也 是 很 重要 的 非 标准 词 。 


对 于 汉语 书面 文本 中 的 数字 串 ， 应 区 分 它们 的 进位 制 ， 按 汉语 习 
惯 以 亿 、 万 、 于 、 百 、 十 为 单位 读 出 ， 如 1254,000,000 应 读 成 <* 十 二 亿 
AFAA [shi2 er4 yi4 wu3 qianl si4 bai3 wan4] ” ° 


例句 : 
这 片 林子 共有 14 000 棵 树 。 


其 中 的 14 000 应 读 为 “一 万 四 千 | yi wand si4 qian1| ” 


e 年代、 时间、 电话 号 码 、 百 分 比 、 分 数 和 小 数 ， 要 区 分 汉语 书面 
文本 中 年 代 、 时 间 、 电 话 号 码 和 特殊 数字 表示 的 顺序 式 读 法 和 进位 制 
读 法 以 及 某 些 特殊 读 法 ， 并 要 处 理 全 角 的 数字 符号 。 


例句 
食 源 开 发 和 物种 驯化 ， 中 国 在 4000 年 前 就 开始 进行 。” 


其 中 的 “4000 年 ”应 读 为 “四 千年 [sid qianl nian2] ”， 采 用 进位 制 读 
TE ° 
美 联 社 16 日 报道 了 中 国 首 位 进入 太空 的 宇航 员 安 全 返回 地 
面 。 报 道 说 ， 在 环绕 地 球 21 个 小 时 后 ， 航 天 飞船 按 计 划 谁 时 春 
陆 。 中 国 的 指挥 控制 中 心 宣布 : 中 国 首 次 载 人 航天 飞行 获得 圆满 
成 功 。 报 道 说 ， 这 次 飞行 的 圆满 完成 是 中 国 11 年 载 人 航天 计划 取 
得 的 最 高 成 就 ， 也 是 中 国 启 得 世界 声望 的 象征 。 


其 中 的 “16” 应 读 为 “十 六 | shi2 liu4 | n 4 EE ST EH“ — ler4 
shi2 yil] ”，“11” 应 读 为 “十 一 [shi2 yi1] ”， 都 采用 进位 制 读 法 。 


秦 朝 建立 于 公元 前 221 年 。 


其 中 的 “221 年 > 应 读 为 “两 百 二 十 一 年 [liang3 bai3 er4 shi2 yil 
nian2| ”， 采 用 进位 制 读 法 。 


“马克 思 生 于 1818 年 。” 


其 中 的 “1818 年 > 应 读 为 “一 八 一 八 年 [yil bal yil bal nian2] ”， 采 
用 顺序 式 读 法 。 


“IT SET 125 23 E^F9:357P88 ° ” 


其 中 的 “12”，“23” 都 采用 进位 制 读 法 ， 分 别 读 为 “十 二 | shi2 
er4| ”和 “二 十 三 [er4 shi2 san1] ", “9:35” 表 示 时 点 ， 应 读 为 “ 九 点 三 
十 五 分 [jiu3 dian3 san1 shi2 wu3 fen1j ” ° 


“旅游 投诉 电话 是 9258。” 


其 中 的 9258 应 读 为 “ 九 二 五 八 _[jiu3 er4 wu3 bal] ”， 采 用 顺序 式 读 


i29 


有 80% 的 家 庭 主妇 对 一 日 三 餐 感 到 头疼 。 


其 中 的 “80%” 应 读 为 “ 百 分 之 八 十 |bai2 fen1 zhil bal shi2] ”。 
(注意 : 这 里 的 80% 是 全 角 的 数字 符号 ) 


美国 太空 发 展 经 费 占 全 球 约 80:2% © 


其 中 的 “80:2%” 应 读 为 “ 百 分 之 八 十 点 二 [bai2 fen1 zhil bal shi2 
dian3 er4| ” (JERR: 这 里 的 80.2% 是 全 角 的 数字 符号 ) 


他 的 年 龄 是 我 的 1/2 © 
其 中 的 “1/2” 应 读 为 “二 分 之 一 [er2 fenl zhil yil] ”。 


2/5 等 于 0.4。 


其 中 的 “2/5” 应 读 为 “五 分 之 二 ”，“0.4” 应 读 为 “零点 四 [ling2 dian3 
si4| ”。 
我 将 住 5~-8 天 o 


其 中 的 “5 一 8” 应 读 为 “五 到 八 [wu3 dao4 ba1] ”或 者 “五 至 八 |wu3 
zhi4 bal| ”。 


eM SIH: 对 符号 和 单位 ， 有 中 文法 定 计 量 单 位 的 应 给 出 相应 
的 拼音 形式 ， 并 按照 汉语 普通 话 读音 ， 读 音 应 遵照 《关于 在 我 国 统一 
实行 法 定 计量 单位 的 命令 》 (19845) 的 规定 ;一 般 外 文 符号 可 按 原 
文 给 出 ， 按 照 原 文 读 音 。 


例句 : 


1987 年 七 月 肯德基 前 门 餐 厅 开 业 ， 门 脸 儿 招牌 上 KEFC 三 个 大 
字 ， 远 远 儿 就 瞧见 了 。 顾 客 排队 最 长 达 20 m， 中 午 就 餐 最 多 达 3 
000—4 000 人 人， 真有 人 张 车 20 km 从 通 县 来 的 ， 够 火 的 吧 ! 


其 中 的 “20 m” 应 读 为 “二 十 米 [er4 shi2 mi3] ”; “20 km”* 应 读 为 “二 
十 公里 |er4 shi2 gong11i3] ”。 


中 国 选 手 获 得 男子 举重 60 kg 级 冠军 。 


其 中 60 kg 的 应 读 为 “六 十 公斤 [liu4 shi2 gongl jin1] ” 
声音 在 空气 中 传播 的 速度 是 340 米 / 秒 。 


其 中 的 “340 米 / 秒 ” 应 读 为 “三 百 四 十 米 每 秒 [san1 bai3 si4 shi2 mi3 


mei3 miao3 | rao 


比热容 单位 (焦耳 每 千克 开尔文 ) 的 国际 符号 是 J/ (kg.K) 
其 中 的 J/ (kg.K) 应 按 英文 字母 读 首 。 


e 以 西 文字 母 开 头 的 词语 : 以 西 文字 母 开 头 的 词语 有 的 是 借词 ， 有 
的 是 外 语 缩 略 语 ， 其 中 的 西 文字 母 部 分 按 西 文 读音 ， 汉 字 部 分 按 汉语 
普通 话 读音 。 例 如 , “oF” BEN [alfa li4 z3] ,“B 超 ”应 读 为 [B 
chaol| ，“ATM 机 ”应 读 为 LATM jil] 


e 专 有 名 词 的 读音 : 专 有 名 词 是 文 语 转换 中 的 一 个 困难 问题 ; 词典 
中 不 可 能 事先 列举 出 汉语 中 的 一 切 专 有 名 词 ， 专 有 名 词 还 可 能 来 日 其 
他 语言 ， 而 且 还 可 能 有 不 同 的 拼写 方法 。 语 音 合成 和 文 语 转换 的 很 多 
应 用 都 是 与 专 有 名 词 分 不 开 的 ; 例如 ， 在 与 电话 有 关 的 应 用 中 ， 电 话 


短 和 打 电 话 都 离 不 开 人 名 和 地 名 。 汉 语 专 有 名 词 有 的 读音 很 特殊 ， 应 

该 注意 区 别 。 例 如 ,“ 单 ”作为 姓 时 应 读 为 [shan4|」 ， 不 能 读 
[dani] 。 地 名 “ 枞 阳 ” 中 的 “ 枞 > 应 读 为 |zongl1j」 ， 不 能 读 
[congl| ° 


为 
为 


e 专业 术语 的 读音 : 把 语音 技术 应 用 于 不 同 的 专业 领域 需要 正确 处 

理 专 业 术 语 的 读 首 。 例 如 ， 地 貌 学 术语 “ 渴 湖 ”( 浅 水 海湾 因 湾 口 被 汶 

积 的 泥 沙 封闭 而 形成 的 湖 ) PARP IEA Lxi4] ， 不 读 为 
[xie4| ° 


一 一 汉语 文本 的 同形 异 义 字 (多 音 
字 ) 处 理 


同形 异 义 词 在 汉语 书面 文本 中 表现 为 同形 异 义 字 。 在 汉语 中 ， 同 
形 异 义 字 也 或 是 多 首 字 。 在 语 首 合成 中 ， 要 根据 上 下 文 条 件 的 不 同 ， 
在 输出 的 拼音 文件 中 对 多 音字 给 出 不 同 的 拼音 。 例 如 , “eM Ms 
差 * 中 的 “ 参 *， 前 者 读 为 [can] ， 后 者 读 为 [ceni] ;“ 行 军 ? 和 “ 银 
行 ” 中 的 “ 行 ”， 前 者 读 为 [xing2] ， 后 者 读 为 [hang2| ; “长 江 ? 和 “局 
长 ”中 的 “长 ”， 前 者 读 为 [chang2] ， 后 者 读 为 [zhang3| ° 


一 一 汉语 语音 合成 中 特殊 前 律 现象 的 
处 理 


以 上 我 们 讨论 了 汉语 书面 文本 归 一 化 中 的 主要 问题 。 此 外 ， 我 们 
还 要 注意 汉语 的 韵律 (prosody) 。 韵 律 与 汉语 文本 的 归 一 化 有 密切 联 
系 。 汉 语 是 有 声调 的 语言 ， 在 汉语 语音 合成 中 ， 必 须 注 意 变 调 、 轻 声 
等 汉语 的 特殊 韵律 现象 的 处 理 。 儿 化 具有 区 别 意义 和 表达 感情 的 作 
用 ， 与 韵律 有 关 ， 在 汉语 书面 文本 归 一 化 时 也 要 注意 处 理 。 


e“ 一 ”不 ”的 读音 : 现 有 的 用 于 语音 处 理 的 汉语 发 音 词典 还 没有 很 
好 的 模型 来 处 理 “ 一 六 "等 字 的 读音 。 这 征 因为 这 些 字 发 音 变化 的 语音 
上 下 文 环境 很 复杂 。 一 般 在 发 音 词典 中 只 包含 某 些 最 基本 的 形式 〈 例 
如 “一 ”的 发 音 为 lyii] ) ， 在 语音 合成 中 ， 要 使 用 相应 的 算法 根据 上 
下 文 推出 它们 的 发 音 变 体 。 


一 一 “一 ”在 非 去 声 前 变 为 去 声 。 例 如 ， 


在 阴平 前 : 一 天 [yi4tianl | 一 般 | yi4ban1 | — il 
[yi4bian4| 一生 |yidsheng1| 


在 阳平 前 : 一 时 [yi4shi2] ”一 齐 [vi4qi2]  — E [yi4zhi2| 
—3L [yi4tou2 | 


Æ ES Bi: 一 手 |yi4shou3 | 一 起 | yi4qi3 | — 3$ 
[yi4ju3] 一 品 [yi4pin3] 


“不 "在 去 声 前 变 为 阳平 。 例 如 ， 


一 半 [yi2ban4|] 一 定 [yi2ding4| 一 再 [yizzaià] 一贯 
[yi2guan4 | 


不 论 [bu2lun4| 不 但 [bu2dan4| ‘32 |bu2xing4| ATH 
| bu2kui4 | 


一 “不 ” 夹 在 词语 中 间 时 变 为 轻声 。 例 如 ， 


想 一 想 [xiang4yi0xiang4] ”看 一 看 [kan4yi0kan4] ” 问 一 问 
[wen4yi0wen4| 


差不多 | chalbu0duol | 好 不 好 | hao4bu0hao4 | 行 不 行 
[xing2bu0xing2 | 


e FESH: 上 声 在 语 流 中 发 生 音 变 ， 在 语音 合成 中 ， 这 种 语 流 音 
变 十 分 复杂 ， 也 要 使 用 相应 的 算法 根据 上 下 文 推出 它们 的 发 音 变 体 ， 
主要 应 处 理 如 下 的 现象 


一 上 声 在 非 上 声 〈 阴 平 、 阳 平 、 去 声 ) 前 一 律 变 为 平 上 ， 调 值 
由 原来 的 【214] 变 为 [21] ， 只 降 不 升 。 例 如 ,“ 影 星 ， 影 评 ， 影 
印 * 中 的 “ 影 "应 读 为 平 上 。 


一 一 上 声 在 上 声 前 (EEIE) ， 前 一 个 上 声 变 得 像 阳 平 ， 调 值 
由 [214] BA [24] ， 只 升 不 降 。 例 如 , “本 领 ， 讲 解 ， 导 演 ” 中 
的 “本 ， 讲 ， 导 ” 调 值 为 [24] ° 


e 轻声 的 读音 : 普通 话 的 轻声 具有 区 别 意 义 的 作用 ， 在 语音 合成 
中 ， 应 当 注 意 如 下 要 点 : 


一 一 辨 义 轻声 ， 同一 个 汉子 ， 由 于 是 否 读 轻 声 而 导致 语义 不 同 。 
例如 , “老子 ” 读 轻 声 时 表示 骄傲 的 目 称 ， 不 读 轻 声 时 表示 古代 人 名 或 
Bz ° 


一 一 连接 词 “ 和 ”该 为 轻声 。 


— 助词 的、 地、 得 * 读 为 轻声 。 


一 一 方位 结构 中 的 非 中 心音 世 读 为 轻声 : 例如 ， 


下 ?中 的 “里 、 上 、 下 ? 读 为 轻声 


— NFER ua TA 


iuf - Vk EY v x 


一 一 单 音 下 动 词 重 县 式 的 后 一 个 音节 读 为 轻声 
洗 、 说 说 ”中 的 后 一 个 音节 “看 、 洗 、 读 ? 读 为 轻声 。 


JRE RES 


° 例 如,，“ 哥 哥 、 
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e 儿 化 的 读音 : 儿 化 音 对 于 语音 合成 的 自然 度 有 重要 的 作用 ， 在 语 
音 合成 中 ， 应 当 对 儿 化 进行 系统 化 的 处 理 ， 这 也 是 汉语 文本 归 一 化 应 


当 注 意 的 问题 : 


一 一 对 于 有 区 别 意 义 作用 的 儿 化 词 ， 必 须 按 儿 化 读音 


fa (表示 “信件 ”) 


HJL (表示 “消息 ”) 
头 (表示 “和 脑袋”) 一 一 头 儿 《表示 “领头 的 人 中) 


一 一 对 于 有 区 别 词性 作用 的 儿 化 词 ， 必 须 按 儿 化 读音 


# (动词 ) — 盖 儿 (和 名词) 
R (形容 词 ) IL (7) 


。 例如， 


。 例 如， 


一 一 对 于 表示 感情 色彩 的 儿 化 词 ， 尽 量 按 儿 化 读音 。 例 如 ， 


小 孩 一 一 小 孩儿 


好 玩 一 一 好 玩 儿 


语音 词典 中 ， 应 当 对 上 述 儿 化 词 一 一 标注 其 拼音 ， 儿 化 词 中 
的 音节 数 等 于 汉字 字数 减 一 。 例 如 , “和 花 儿 ”应 标注 为 [hua'er| ， 其 音 
TAHIL ° 
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前 面 单词 的 最 后 一 个 音节 儿 化 ， 语 音 合 成 时 “ 儿 ? 不 再 发 音 。 


非 儿 化 词 中 的 * 儿 ”， 应 当 单独 读 成 一 个 音 。 例 如 , “孤儿 、 
男儿 、 混 血 儿 ?中 的 “ 儿 ”， 都 应 当 读 成 一 个 音节 ， 不 能 儿 化 。 


对 于 汉语 语音 合成 中 文本 归 一 化 问题 ， 我 国语 言 学 界 似乎 还 没有 
进行 过 深入 研究， 值得 我 们 关注 。 


BT ”语音 目 动 识别 


早 在 20 世 纪 初 ， 国 外 就 有 学 者 研究 过 语音 自动 识别 (Automatic 
Speech Recognition， 简 称 ASR) 问题 。20 世 纪 40 年 代 电 子 计 算 机 还 没 
有 出 现时 ， 波 特 耳 (Potter) 就 提出 了 “看 得 见 的 语 首 ” (visible 
speech) 的 概念 ， 他 用 电子 仪器 把 语音 表示 为 肉眼 可 见 的 声 谱 ， 使 人 们 
能 够 根据 声 谱 来 辨识 不 同 的 语音 ， 这 可 以 说 是 语音 识别 的 移 声 。 


电子 计算 机 问世 后 ，20 世 纪 60 年 代 进 行 过 英语 离散 单词 的 识别 人 研 
完 ， 取 得 了 初步 的 成 绩 。 但 是 ， 用 电子 计算 机 进行 大 规模 的 语 首 识别 
研究 ， 则 是 从 20 世 纪 70 年 代 才 开始 的 。1971 年 ， 美 国 国防 部 的 高 级 研 
究 规划 署 (Advanced Research Projects Agency， 简 称 ARPA) 提出 了 为 
期 五 年 的 英语 语音 识别 大 型 研究 计划 ， 这 个 计划 叫做 SUR (Speech 
Understanding Research 的 简称 ， 含 义 为 “口语 理解 研究 ”) ，ARPA 的 
SUR 计 划 委 托 卡 内 基 - 梅 隆 大 学 (Camegie-Mellon University) , BBN 


(Bolt, Beranek & Newman) 公司 负责 ， 分 别 进行 系统 的 开发 。 五 年 
中 ， 卡 内 基 一 梅 隆 大 学 人 研制 出 HEARSAY、DRAGON ` HARPY 等 系 
统 ，BBN 公 司 研 制 出 SPEECHLIS、HWIM 等 系统 。 这 些 系 统 都 达到 了 
预定 的 有 限 的 目标 。 例 如 ，HWIM 系 统 可 以 识别 三 个 男性 发 音 人 的 英 
语 口 呼 ， 包 含 单词 1097 个 ， 应 用 于 旅游 管理 中 。HEARSAY 有 两 个 系 
统 ， 先 建成 HEARSAY I， 随 后 进一步 改进 ， 于 1976 年 建成 HEARSAY 
II， 以 文件 检索 为 主题 ， 包 含 单词 1011 个 ， 可 以 识别 一 个 男性 发 音 人 的 
天 语 口 呼 。HARPY 的 主题 是 文件 检索 ， 包 含 单词 1011 个 ， 可 以 识别 三 
个 男性 发 音 人 和 两 个 女性 发 音 人 的 英语 口 呼 。 此 外 ， 美 国 的 SRI 公 司 、 
SDC 人 公司、IBM 人 公司、 贝尔 实验 室 、 林 肯 实 验 室 、 言 语 通信 人 研究 实验 
室 、 法 国 的 南 锡 大 学 、 意 大 利 的 都 灵 大 学 、 日 本 的 京都 大 学 、 京 都 工 
艺 纤维 大 学 、 山 梨 大 学 、 电 电 公 社 武 藏 野 通 研 等 ， 也 都 开展 了 语音 识 
别 的 研究 。 


语音 自动 识别 主要 的 应 用 领域 有 : 


e 人 机 交互 : 语音 自动 识别 的 一 个 重要 的 应 用 领域 是 人 和 计算 机 的 
交互 。 人 机 交互 的 很 多 任务 已 经 可 以 采用 可 视 的 和 可 指 的 界面 来 解 
R, 但是， 对 于 那些 完全 用 目 然 语言 交际 的 任务 ， 对 于 那些 不 适合 使 
用 键 副 的 任务 ， 与 键 副 相 比 ， 语 首 是 一 个 潜在 的 和 比较 好 的 界面 。 这 
些 任务 包括 手 和 有 眼 用 得 多 的 领域 ,这 时 用 户 要 用 手 或 眼 来 操作 目标 或 
淡 备 目标 以 便 控 制 它 们 ， 如 末 采 用 语 首 目 动 识别 技术 ， 束 可 以 通过 语 
首 来 控制 。 


e 电话 和 手机 : 语音 自动 识别 的 另外 一 个 应 用 领域 是 电话 。 在 这 个 
领域 ， 语 音 识别 已 经 在 一 些 方面 得 到 使 用 ， 例 如 ， 口 呼 数 字 输 入 ， 识 
别 “yes” 以 便 接 收集 体 呼 叫 ， 查 找 有 关 飞 机 或 火车 的 信息 ， 还 有 呼叫 路 


径 选择 ( “Accounting, please" | 请 结账 | , “Prof. Regier, 


Please” | Regier 教 授 ， 请 | ) ， 在 手机 使 用 中 ， 口 呼 人 名 进行 号 码 呼 
叫 。 在 某 些 应 用 中 ， 结 合 语 首 和 指示 的 多 模仿 界面 比 没有 语 首 的 图 形 
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e 自动 听写 : 语音 自动 识别 还 可 以 应 用 于 自动 听写 (dictation) , 
也 歼 是 把 一 个 特定 的 单独 的 说 话 人 口授 的 比较 长 的 独 日 转 写成 文字 。 
口授 在 法 律 领域 使 用 很 普遍 ， 它 也 可 以 作为 增强 交际 的 一 个 重要 部 
分 ， 在 计算 机 和 那些 不 能 打字 或 者 不 能 说 话 的 残疾 人 之 间 进 行 交 互 。 
著名 诗人 弥 尔 顿 (Milton) 失明 之 后 ， 曾 经 给 他 女儿 口授 了 《 失 乐 
园 》， 这 已 经 成 为 还 下 闻 名 的 佳话 。 作 家 詹姆斯 (Henry James) 在 受 
重伤 之 后 ， 口 授 了 他 晚期 的 一 些小 说 ， 这 也 是 众所周知 的 事实 。 如 果 
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在 我 国 ， 语 音 上 自动 识别 技术 在 铁路 、 民 用 航空 部 门 用 来 建立 人 机 
对 话 的 无 人 管理 问讯 处 ， 在 公安 机 关 用 来 做 “ 声 纹 ? 刑 事 侦破 系统 ， 在 
军事 院 校 用 作 口 呼 语音 的 训练 与 指挥 系统 ， 在 目 然 语 言 处理 中 ， 语 音 
目 动 识别 用 于 由 语音 直接 输入 输出 的 机 器 翻译 系统 。 此 外 ， 语 音 自 动 
识别 技术 还 被 用 于 汉字 的 语音 输入 ， 采 用 语音 识别 技术 ， 只 要 读 出 汉 
字 的 字音， 束 可 以 把 汉字 输入 计算 机 。 这 是 一 种 最 自然 、 最 理想 的 汉 
字 输 入 方法 。 


语音 的 自动 识别 可 以 分 为 如 下 九 种 类 型 


(1) 特定 说 话 者 小 词汇 量 离散 单词 识别 : 预先 由 说 话 者 发 出 几 十 
个 离散 单词 的 声音 ， 并 将 其 记录 在 计算 机 中 ， 作 为 标准 模式 。 计 算 机 
只 能 识别 这 个 说 话 者 的 声音 。 识 别 时 ， 首 先 对 输入 的 特定 说 话 者 的 声 
音 进 行 语 音 分 析 ， 抽 出 其 特征 参数 ， 然 后 把 这 些 特征 参数 同 已 存 贮 在 
计算 机 中 的 标准 模式 相 匹配 ， 从 而 达到 目 动 识别 的 目的 。 


(2) 特定 说 话 者 大 词汇 量 离散 单词 识别 : 这 种 类 型 的 语音 识别 有 
相当 难度 ， 词 汇 量 从 几 和 于 到 几 万 ， 识 别 时 极 易 混 消 。 


(3) 非特 定 说 话 者 小 词汇 量 离散 单词 识别 : 这 种 类 型 的 语音 识别 
不 认 人 ， 可 识别 不 同 的 说 话 者 的 声音 。 由 于 说 话 者 个 人 的 语音 音色 的 
莽 别 、 方 言 的 差别 ， 研 制 起 来 有 相当 的 难度 。 由 于 说 话 者 的 发 音 各 有 
差别 ， 系 统 要 做 到 谁 说 都 能 听 屏 ， 应 该 具备 特殊 的 功能 ， 使 得 系统 能 
够 获取 众多 说 话 者 的 共性 特征 ， 并 在 处 理 中 加 以 强化 ， 使 同一 语音 的 
特征 (不 管 是 谁 说 的 ) 有 尽 可 能 高 的 稳定 性 ， 对 不 同 的 语音 有 尽 可 能 
大 的 区 别 度 。 


(4) 非特 定 说 话 者 大 词汇 量 离散 单词 识别 : 这 种 类 型 的 语音 识别 
与 (3) 比较 ， 由 于 要 识别 的 词汇 量 大 ， 其 难度 又 上 了 一 个 台阶 。 


(5) 特定 说 话 者 小 词汇 量 连 续 语 音 识 别 : 这 种 类 型 的 语音 识别 与 
上 述 孤 立 单词 识别 的 最 大 区 别 是 ， 特 定 说 话 者 不 是 一 词 一 顿 地 发 音 ， 
而 是 整个 句子 连续 地 发 音 。 系 统 “ 听 ?到 的 不 是 个 别 的 字 或 词 ， 而 是 整 
句 话 。 这 束 要 求 系统 起 码 要 具备 两 种 能 力 : 一 是 处 理 “ 音 变 ” 问 题 的 能 
力 ， 因 为 音 变 是 由 连 读 造成 的 ， 二 是 使 用 语法 、 语 义 的 知识 分 析 句 子 
从 而 得 出 正确 识别 结果 的 能 


(6) 特定 说 话 者 大 词汇 量 连 续 语 音 识 别 : 这 种 类 型 的 语音 识别 在 
难度 上 又 比 (5) 上 了 一 个 台阶 。 这 样 的 语音 识别 系统 的 构 词 量 与 造句 
量 数 以 万 计 ， 必 须 有 强大 的 知识 库 来 文 撑 。 


(7) 非特 定 说 话 者 小 词汇 量 连续 语音 识别 。 


(8) 非特 定 说 话 者 大 词汇 量 连续 语音 识别 。 


5j (5) 相 比 ， 由 于 (7) ^ (8) 两 种 类 型 的 语音 识别 是 不 认 人 
的 ， 其 难度 更 大 ， 可 以 说 是 难 上 加 难 。 


(9) 说 话 者 辨认 : 这 方面 的 研究 可 以 分 为 说 话 者 识别 (speaker 
identification) 和 说 话 者 检验 (speaker verification) 两 种 。 说 话 者 识别 
就 是 把 未 知 的 声 首 同 预先 登录 在 计算 机 中 的 各 说 话 者 的 声 首 相 比 较 ， 
判定 这 未 知 的 声音 是 哪 一 个 说 话 者 的 声音 。 说 话 者 检验 束 是 把 未 知 的 
声音 同 预先 登录 在 计算 机 中 的 某 个 说 话 者 的 标准 模式 相 比 较 ， 判 明 这 
未 知 的 声音 是 不 是 这 个 说 话 者 的 声音 ， 这 就 是 所 谓 的 “ 声 约 判定 ”。 声 
普 中 所 含 的 个 人 特征 的 信息 ， 起 因 于 声带 等 先天 发 首 器 官 的 个 人 差 
别 ， 也 起 因 于 方言 、 土 语 等 后 天 的 发 首 因 素 ， 这 些 个 人 特征 信息 主要 
表现 为 振幅 、 基 频 、 短 时 间 波 谱 等 特征 参数 ， 而 这 些 特征 参数 常常 会 
随 着 时 间 的 变化 而 变化 。 为 了 提高 识别 率 ， 必 须 尽 量 排除 时 间 变 化 对 
特征 参数 的 影响 e 


语音 自动 识别 在 技术 上 需要 解决 两 个 主要 问题 


第 一 ， 语 首 目 动 识别 系统 要 抽取 能 够 表征 语音 的 参数 ， 目 前 使 用 
较 多 的 语音 特征 参数 有 : 通道 滤波 右 组 输出 的 频谱 ， 线 性 预测 参数 ， 
倒 谱系 数 ， 短 时 能 量 ， 短 时 过 零 率 等 。 


第 二 ， 建 立 语音 识别 系统 的 数学 模型 ， 寻 找 优化 的 识别 方法 和 处 
理 手 段 。 目 前 使 用 的 语音 自动 识别 方法 有 三 种 : 一 是 基于 动态 规划 
(Dynamic Programming, faiPXDP) 的 模式 匹配 方法 ， 二 是 基于 概率 统 
计 理 论 的 隐 马 尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM) 方法 ， 
三 是 人 工 神 经 网 络 (Neural Network， 简 称 NN) 方法 。 这 三 种 方法 目 
前 都 有 人 在 人 研究 。 


我 们 这 里 简单 地 介绍 基于 概率 统计 理论 的 隐 马 尔 可 夫 模 型 的 方 


语音 识别 的 任务 是 取 声 学 波形 作为 输入 ， 产 生 单 词 串 作为 输出 。 
基于 概率 统计 理论 的 隐 马 尔 可 夫 模 型 (HMM) 的 语音 识别 系统 是 使 
用 “噪声 信道 模型 ” (noisy channel model) 来 实现 这 个 任务 的 。 


噪声 信道 模型 的 直觉 是 : 把 语音 的 声学 波形 看 成 是 单词 串 的 一 
个 “噪声 ”版 本 ， 这 个 版 本 通过 了 一 个 有 噪声 的 通信 信道 (noisy 
channel) 。 由 于 这 个 信道 导入 了 “噪声 ” (noise) ， 使 得 系统 在 识别 “ 真 
正 ” 的 单词 串 时 产生 困难 。 我 们 的 目标 在 于 建立 一 个 信道 的 模型 ， 通 
计算 ， 了 解 到 这 个 信道 究竟 是 怎样 修改 了 “真正 ”的 句子 ， 从 而 恢复 这 
个 句子 。 如 图 18.2 所 示 。 


noisy channel AN 
l N IIA 
J^ PAAZ f 


source sentence — - -74 1 DA "A 
< NOR eee E, p See 
If music be . i lu uc MP 
the food of love... DW E dirae d i tna 


decoder —Á 
Every happy family NS Nn. noisy 1 
In a hole in the ground Se =m 2 


guess at source: 
If music be 


7 music be the food of loves, n2 VES 
the food of love... Se 有 


E 


图 18.2 ”语音 识别 的 噪声 信道 模型 


在 图 18.2 中 ， 我 们 搜索 一 个 很 大 的 潜在 的 “ 源 句 子 ” (source 
sentence) 空间 ， 并 选择 在 生成 “噪声 句子 ” (noisy sentence) 时 具有 最 
大 概率 的 句子 。 为 此 ， 需 要 一 个 解码 器 (decoder) ， 对 源 句 子 进行 猜 
测 (guess at source) ， 找 出 概率 最 大 的 源 句 子 作 为 语音 识别 的 结果 。 
在 图 18.2 中 ， 识 别 结果 就 是 “If music be the food of love ...” 这 个 颇具 浪漫 
色彩 的 句子 。 


我 国 在 离散 单词 、 简 单口 令 的 语音 识别 方面 已 经 取得 不 少 进展 。 
中 国 科学 院 声学 研究 所 于 20 世 纪 50 年 代 后 期 就 研制 出 汉语 单元 音 识 别 
装置 。220 世 纪 60 年 代 对 汉语 的 清晰 度 进行 过 系统 的 实验 ， 取 得 了 基本 
数据 。20 世 纪 70 年 代 末 、80 年 代 初 ， 采 用 模式 匹配 的 方法 ， 事 先 存 入 
发 话 人 的 语音 做 成 标准 模式 ， 计 算 机 可 识别 该 特定 说 话 者 的 几 十 条 口 
令 ， 内 容 包 括 数 字 、 算 术 四 则 运算 符号 及 一 些 操作 指令 。1980 年 ， 清 
华 大 学 计算 机 系 采 用 模式 匹配 法 研制 成 我 国 30 个 大 城市 地 名 识别 系 
统 ， 口 呼 地 名 输入 ， 计 算 机 屏幕 承 可 以 显示 汉字 。 他 们 还 通过 口语 来 
查询 清华 大 学 校内 的 电话 号 码 ， 并 在 此 基础 上 于 1984 年 建成 “8000 台 电 
话 声控 得 号 系统 ”， 并 且 投入 了 实用 。 用 户 碍 询 电话 时 ， 需 由 话务员 复 
述 单 位 名 称 ， 并 由 话务员 通过 自己 的 语音 把 单位 名 称 报 给 计算 机 ， 计 
算 机 屏幕 上 束 显 示 出 该 单位 的 电话 号 码 ， 并 可 通过 语音 合成 装置 将 号 
码 目 动 地 报 给 用 户 。1986 年 ， 清 华 大 学 计算 机 系 在 长 城 0520C-H 国 产 微 
型 机 的 汉字 编码 输入 的 基础 上 ， 增 加 了 汉字 语音 输入 方式 ， 他 们 研制 
的 汉字 语音 输入 系统 具有 约 1000 汉 字 的 字 表 ， 在 这 个 字 表 内 的 字 以 及 
由 这 些 字 组 成 的 词 ， 都 可 以 通过 语音 输入 到 计算 机 中 去 ， 操 作者 无 须 
经 过 专门 训练 ， 只 要 预先 念 一 遍 字 词 ， 让 计算 机 熟悉 其 口音 就 行 了 ， 
语音 识别 的 正确 率 为 90%， 字 表 的 内 容 还 可 以 根据 使 用 领域 任意 确定 。 
中 国 科学 院 声学 研究 所 还 研制 出 “汉语 孤立 字 全 音节 实时 识别 系统 ”， 
该 系统 可 识别 1300 个 汉语 全 音 市 ， 分 为 四 声 识 别 、 辅 首 粗 识别 和 音 市 
细 识 别 三 个 层次 。 四 声 识别 的 正确 率 达 到 99.4%。 辅 首 粗 识别 主要 用 来 
提取 辅音 强 频 区 的 分 布 、 清 辅音 的 长 度 、 声 母 与 韵母 的 时 长 比 等 辅音 
的 首 征 ， 根 据 音 征 从 全 部 辅音 中 选 出 候选 声母 ， 起 到 粗 分 类 的 作用 。 
在 粗 分 类 之 后 进行 音节 识别 ， 只 限定 识别 包含 上 述 6 个 候选 声母 的 那些 
普 广 。 这 样 做 既 可 以 市 约 匹配 时 间 ， 又 可 提高 识别 的 正确 率 。 该 系统 
在 1988 年 西欧 高 技术 展览 会 (TEC-88) 上 获得 国际 大 奖 ， 在 此 基础 
上 ， 已 制 成 语音 打字 机 。 清 华 大 学 研制 了 “大 词汇 量 汉 语 语 音 识 别 系 


统 ”， 该 系统 采用 分 段 矢 量 量化 和 分 段 概 率 模型 ， 没 有 专门 分 割 声 母 和 
韵母 的 步骤 ， 但 在 建立 矢量 码 本 时 以 及 在 识别 策略 上 ， 都 考虑 了 二 者 
的 区 别 。 该 系统 采取 了 两 级 匹配 的 策略 ， 先 是 计算 音节 匹配 的 概率 ， 
继而 计算 词组 匹配 的 概率 ， 系 统 中 建 有 单 音节 字 表 、 双 音节 至 四 音节 
词 表 ， 可 以 直接 口 呼 词 ， 识 别 精度 高 ， 响 应 速度 快 。 中 国 科 学 院 自动 
化 研究 所 研制 了 “汉语 大 词汇 量 语音 识别 与 口 呼 文本 输入 系统 ”， 以 声 
韵 调 为 基 元 来 进行 语音 识别 ， 识 别 时 采用 了 隐 马 尔 可 夫 模型 (HMM) 
及 人 工 神 经 网 络 (NN) 方法 。 


我 国 在 非特 定 说 话 者 语音 识别 方面 也 取得 了 进展 。 清 华 大 学 研制 
成 功 非特 定 说 话 考 中 词汇 量 语音 识别 系统 。 非 特定 说 话 者 的 语音 识别 
的 难度 很 高 ， 识 别 时 要 强调 众多 说 话 者 的 语音 共同 参数 ， 采 用 类 聚 和 
模糊 处 理 使 其 具有 一 般 性 ， 并 要 解决 语音 多 变性 和 语 流 速度 变异 问 
题 ， 采 用 更 为 有 效 的 时 间 规 正 技术 。 采 用 这 样 的 语音 识别 系统 ， 使 用 
者 不 必 经 过 训练 ， 在 400 多 个 词汇 的 范围 内 ， 有 很 高 的 识别 率 。 另 外 ， 
清华 大 学 还 研制 成 基于 神经 网 络 方法 的 非特 定 说 话 者 小 词汇 量 语音 识 
别 系统 ， 以 30 个 军事 用 语 作 试验 ， 使 用 者 不 必 经 过 训练 ， 识 别 正确 率 
接近 100%。 北京 四 达 技 术 开 发 中 心 和 哈尔滨 工业 大 学 合作 ， 研 制 了 汉 
语 语 音 识 别 系统 “四 达 -863A”。 该 系统 以 单 音节 作为 语音 识别 的 基本 单 
元 ， 选 择 398 个 无 声调 单 音节 作为 语音 识别 的 基本 内 容 ， 这 398 个 单 音 
节 包 含 了 国家 标准 一 、 二 级 汉字 库 中 所 有 汉字 的 语音 。 用 户 在 初次 使 
用 该 系统 时 需要 作 短 和 暂 的 训练 。 该 系统 还 把 语音 识别 技术 与 拼音 汉字 
简单 转换 技术 结合 起 来 ， 使 用 者 只 需 朗 读 所 要 输入 的 汉字 ， 属 于 同一 
普 节 的 若干 个 汉字 由 拼音 -汉字 转换 程序 来 确定 是 哪 一 个 汉字 。“ 四 
达 -863A” 系 统 的 一 次 识别 正确 率 超 过 93%， 系 统 的 啊 应 时 间 小 于 0.1 
秒 ， 四 个 声调 的 识别 正确 率 为 99%， 每 分 钟 可 口 呼 输入 80 个 汉字 。 


在 连续 单词 识别 方面 ，1984 年 ， 清 华 大 学 研制 成 功 * 连 续 数字 语音 
识别 系统 ”， 先 在 计算 机 中 存 入 0 到 9 十 个 数字 的 语音 模式 ， 可 识别 连续 
数字 ， 三 位 数字 的 识别 正确 率 为 90%。1985 年 ， 哈 尔 滨 工业 大 学 研制 
成 < 口 呼 连续 数字 串 识 别 系统 ”， 采 用 “人 移 分 段 ， 后 匹配 ?的 方法 ， 通 过 预 
分 段 得 出 数字 之 间 的 所 有 可 能 的 段 点 ， 然 后 用 动态 规划 匹配 法 确定 哪 
些 段 点 是 数字 之 间 的 实际 连接 点 ， 这 种 方法 减少 了 计算 机 的 存 迪 空 
则 ， 识 别 正确 率 为 89.3%。 


汉语 首 证 是 声韵 调 的 统一 体 ， 深 入 人 研究 汉语 首 习 的 声学 结构 将 有 
助 于 语 首 识别 策略 的 确定 。 实 验 表明 ， 汉 语音 市 中 前 母 段 的 时 长 与 能 
量 比 声 母 段 的 时 长 与 能 量 大 得 多 ， 占 绝对 优势 ， 因 此 ， 声 母 的 识别 要 
比 韵母 的 识别 难度 大 。 从 音 季 中 切 分 出 声母 时 ， 一 般 都 保留 着 后 继 章 
母 的 影响 ， 对 带 有 不 同 后 继 韵 母 的 声母 ， 应 该 建立 不 同 的 样本 。 采 取 
先 识别 韵母 ， 再 回 过 头 来 识别 声母 的 策略 ， 可 能 是 汉语 语音 识别 的 一 
个 好 办 法 。 声 母 和 韵母 之 间 存 在 一 个 过 小 段 ， 这 个 过 让 段 虽然 只 有 5 一 
30 至 秒 的 短暂 时 间 ， 但 却 含有 很 重要 的 信息 ， 这 一 过 小 段 对 于 声母 和 
韵母 的 变异 和 基 首 频率 的 变化 极为 敏感 ， 目 前 还 没有 找到 较 好 的 办 法 
利用 好 这 个 过 小 段 的 信息 。 汉 语 语音 识别 的 重点 应 当 放 在 单 音节 的 识 
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化 、 异 化 、 换 位 、 弱 化 、 脱 落 等 首 变 现象 。 在 语 首 识别 中 ， 我 们 要 让 
计算 机 具备 这 方面 的 知识 ， 才 能 有 效 地 处 理 识别 过 程 中 的 各 种 语 流 音 
变现 象 。 


与 其 他 语言 相 比 ， 汉 语 普通 话 中 的 音节 较 少 ， 考 虑 到 声调 时 有 
1300 个 ， 不 考虑 到 声调 时 只 有 400 多 个 ， 而 俄语 的 音节 多 达 2960 个 ， 英 
语 的 音 世 多 达 4030 个 。 音 节 是 汉语 普通 话 中 最 自然、 最 基本 的 语音 
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字 ， 具 有 一 定 的 意义 ， 所 以 一 个 音节 束 是 形 音 义 的 结合 体 。 发 音 时 ， 
音节 本 身 大 部 分 时 间 为 比较 稳定 的 元 音 段 ， 而 汉语 的 元 音 对 可 复 度 的 
影响 要 比 英 语 、 俄 语 等 语种 大 。 从 实验 结果 看 ， 元 音 的 识别 率 比 辅音 
的 高 得 多 ， 而 汉语 的 声调 又 有 区 别 意 义 的 作用 ， 可 提高 识别 率 。 因 
此 ， 与 其 他 语种 的 语言 比较 起 来 ， 汉 语 普 通话 的 语音 是 比较 易于 区 分 
开 来 的 。 有 人 预言 ， 在 世界 上 主要 的 语言 中 ， 汉 语 语音 的 目 动 识别 很 
有 布 望 狂 得 最 先 的 突破 。 人 类 每 四 个 人 中 就 有 一 个 人 讲 汉 语 ， 当 人们 
跨 入 高 度 发 达 的 信息 化 时 代 的 时 候 ， 直 接 用 汉语 同 计算 机 对 话 ， 必 将 
使 计算 机 的 应 用 水 平 达到 前 所 未 有 的 高 度 。 


语音 的 目 动 识别 与 目 动 合 都 成 是 很 有 实用 价值 的 研究 领域 。 为 了 
提高 语音 识别 率 与 合成 语音 的 音质 ， 除 了 技术 上 的 问题 之 外 ， 必 须 深 
入 地 进行 语言 学 的 研究 ， 不 仅 要 研究 语言 语音 的 规律 ， 还 要 研究 语法 
和 语义 的 规律 。 语 言 工 作者 应 该 关心 这 个 领域 的 研究 ， 做 出 应 有 的 页 
献 。 事 实证 明 ， 在 语音 的 识别 与 合成 中 ， 自 觉 地 利用 语言 学 的 研究 成 
果 ， 将 会 显著 地 提高 研究 的 水 平 ， 因 此 ， 语 言 学 工作 者 在 语音 的 识别 
与 合成 系统 的 研制 中 ， 和 是 会 大 有 作为 的 。 


汉语 语音 的 目 动 识别 与 合成 ， 目 前 是 以 普通 话 为 对 象 的 ， 不 论 十 
研究 人 员 、 操 作 人 员 或 是 发 话 人 ， 都 要 学 好 普通 话 ， 才 有 可 能 进行 研 
究 。 为 了 推广 汉语 语音 自动 识别 与 合成 的 研究 成 采 ， 用 户 也 必须 会 说 
普通 话 ， 人 否则 是 很 难 进行 操作 和 使 用 的 。 生 活 在 信息 网 络 化 社会 的 中 
国人 ， 应 当 学 会 说 全 国 通行 的 普通 话 ， 才 能 适应 信息 网 络 化 社会 的 要 
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汉字 如 何 输入 计算 机 的 问题 ， 征 中 文 信息 处 理 的 关键 问题 ， 这 个 
问题 不 解决 好 ， 中 文 信 息 的 计算 机 处 理 束 成 为 无 米 之 人 次。 汉字 输入 计 
算 机 的 方法 有 好 几 种 ， 目 前 讨论 最 多 的 是 汉字 编码 法 ， 采 用 编码 的 方 
法 来 输入 汉字 “。 但 是 ， 不 论 多 么 好 的 汉字 编码 方案 ， 痢 要 徘 操 作 人 员 
击 键 输入 ， 工 作 量 相当 大 。 据 统计 ， 中 文 文献 的 数量 以 每 七 八 年 翻 一 
番 的 速度 增长 着 ， 每 年 在 中 文 期 刊 上 发 表 的 论文 约 12 万 篇 ， 如 果 我 们 
用 计算 机 来 管理 这 些 文献 ， 要 把 这 么 多 的 中 文 文献 输入 计算 机 ， 采 用 
手工 击 键 的 方式 几乎 是 不 可 能 的 。 然 而 ， 如 果 我 们 能 设法 让 计算 机 目 
动 地 识别 汉字 ， 只 要 计算 机 “看 ”着 中 文 文献 ， 就 能 把 它们 准确 地 输入 
到 计算 机 中 去 ， 那 必然 会 大 大 地 提高 中 文 信息 计算 机 处 理 的 效率 ， 因 
此 ， 汉 字 目 动 识别 系统 的 研究 成 为 了 国内 外 目 然 语言 处 理学 弄 鼎 目的 


一 个 问题 。 


天 于 印刷 体 英 文字 母 和 阿拉 伯 数 字 的 目 动 识 别 研究 ， 早 在 20 世 纪 
50 年 代 就 在 美国 和 欧洲 开始 了 。1955 年 出 现 了 印刷 体 数 字 的 光学 字符 
目 动 识别 竣 置 ， 接 痢 出 现 了 印刷 体 英 文字 母 的 目 动 识别 又 置 ， 随 后 学 
者 们 又 转 癌 手写 体 英 文字 母 和 手写 体 阿 拉 伯 数字 的 目 动 识别 研究 。 


日 本 对 文字 目 动 识别 方面 的 全 完 起 步 较 晚 ， 但 发 展 很 快 。 手 写 体 
英文 字母 、 手 写 体 阿拉 伯 数 字 、 手 写 体 日 文 假 名 的 目 动 识别 ， 在 20 世 
纪 70 年 代 末 已 达到 实用 化 水 平 ，20 世 纪 80 年 代 初 已 有 商品 化 的 产品 出 
现在 市 场 上 。 


关于 汉字 自动 识别 的 研究 ，1966 年 美国 的 凯 西 (R. Casey) 和 纳 吉 
(G. Nagy) 曾 利 用 计算 机 做 过 自动 识别 1 000 个 印刷 体 汉 字 的 初步 实 
验 ，1970 一 1972 年 斯 托 林 斯 (W. Stallings) 利用 计算 机 对 汉字 做 过 分 析 
和 描写 。 此 后 ,日 本 的 中 野 康 明 、 山 本 美 司 、 池 田 克 夫 等 学 者 也 积极 
研究 汉字 的 自动 识别 问题 ，20 世 纪 70 年 代 初 期 开始 研究 印刷 体 汉 字 的 


自动 识别 ， 到 20 世 纪 70 年 代 来 期 达到 实用 水 平 ，20 世 纪 70 年 代 后 期 开 
始 研 究 手 写 体 汉字 自动 识别 ， 目 前 已 经 实用 化 和 商品 化 。 


我 国 哈尔滨 工业 大 学 、 上 海 交 通 大 学 、 清 华 大 学 、 北 东信 息 工 程 
学 院 等 单位 部 开展 了 汉字 目 动 识别 研究 ， 取 得 了 一 定 的 成 果 。 


在 进行 汉字 目 动 识 别 时 ， 首 先 要 把 汉字 写成 的 中 文 文献 用 光学 的 
方法 进行 检测 ， 通 过 光学 字符 识别 器 (Optical Character Recognizer， 简 
称 OCR) ， 将 纸 面 上 的 汉字 信息 转换 成 离散 的 电信 号 ， 然 后 送 入 计算 
机 进行 判别 。 


常见 的 光电 转换 方式 主要 有 四 种 : 


(1) 飞 点 扫描 方式 : 采用 飞 点 荧光 管 作为 光源 ， 在 纸 面 上 对 和 欲 识 
别 的 汉字 按 顺序 进行 扫描 ， 再 用 光电 倍增 管 接收 汉字 影像 ， 获 得 被 识 
别 对 象 的 信号 。 扫 描 光 电 由 偏转 电路 控制 。 


(2) 光电 摄像 管 方式 : 将 光 导 电 物 质 蒸发 在 透明 的 导电 膜 上 作为 
靶子 ， 光 源 照 时 在 写 有 汉字 的 纸 面 上 ， 通 过 透 锐 成 像 后 ， 由 电 傈 积累 
成 图 像 。 当 电 子 束 扫描 到 靶子 上 时 ， 束 会 有 图 像 电 流 输 出 。 


(3) 光敏 矩阵 方式 :用 半导体 光敏 元 件 排列 成 二 维 的 矩阵 平板 ， 
光 产 照射 在 写 有 汉字 的 纸 面 上 形成 反射 光 ， 再 用 透镜 加 以 放大 ， 投 影 
到 光敏 元 件 的 二 维 矩 阵 板 上 ， 即 可 得 到 输出 的 电信 号。 


(4) 激光 扫描 方式 : 激光 的 能 量 非 常 集中 ， 方 向 性 强 ， 分 辨 度 
高 ， 使 用 寿命 长 ， 用 激光 扫描 写 有 汉字 的 纸 面 ， 即 可 输出 电信 号。 


写 在 纸 面 上 的 汉字 通过 光电 小 置 转换 成 电信 和 号 之 后 ， 便 可 用 计算 
机 对 其 进行 识别 。 


目前 ，OCR 的 输入 速度 是 每 秒 2 000 一 3 000 字 符 ， 相 当 于 人 有 眼 读书 
速度 的 一 百倍 。 古 人 有 “五 更 三 点 待 漏 ， 一 目 十 行 读书 ”, “读书 敏 速 ， 
F 行 俱 下 ”等 说 法 ， 形 容 读 书 之 快 ， 但 是 比 起 OCR 来 ， 那 就 相形 见 弓 
了 。 汉 字 自 动 识 别 系 统 可 以 高 效率 地 输入 中 文 资料 ， 其 研究 前 景 十 分 
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汉字 目 动 识别 系统 首先 要 在 计算 机 内 建立 标准 汉字 样本 ， 然 后 选 
用 适当 的 汉字 识别 准则 ， 将 输入 的 竺 识别 汉字 与 样本 中 的 标准 汉字 还 
一 对 比 ， 最 后 根据 汉字 识别 准则 来 判断 输入 的 是 何 字 。 因 此 ， 汉 字 识 
别 准 则 是 判明 未 知 汉字 归属 的 依据 。 目 前 所 用 的 有 相似 度 准 则 和 距离 
准则 两 种 。 


(1) 相似 度 准 则 : 


未 知 汉字 图 形 与 标准 汉字 图 形 之 间 相 似 程度 的 大 小 ， 叫 做 相似 
度 。 汉 了 字 字 符 图 形 在 图 像 空 间 中 的 相似 度 由 输入 字符 图 形 向 量 与 标准 
汉字 图 形 向 量 之 间 夹 角 的 余弦 来 表示 。 识 别 时 ， 如 果 相 似 度 为 1L， 则 说 
明 两 个 向 量 重 合 ， 因 此 ， 取 相似 度 为 1 的 情况 作为 识别 结 


但 是 ， 在 实际 使 用 中 ， 汉 字 疼 形 会 因为 混 有 各 种 干扰 斑点 而 造成 
变形 ， 这 种 变形 可 比喻 为 “噪声 ”noise) 。 由 于 噪声 的 存在 ， 要 使 未 
知 汉字 与 标准 汉字 的 图 形 完全 一 致 症 非常 困难 的 ， 也 就 是 说 ， 相 似 度 
一 般 并 不 等 于 1。 为 此 ， 在 汉字 上 自动 识别 系统 中 ， 还 采用 复合 相似 度 与 
混合 相似 度 作为 识别 准则 。 对 混 有 噪声 的 未 知 汉字 图 形 的 形状 及 位 置 
的 要 求 略 微 放 宽 ， 使 计算 机 的 汉字 目 动 识别 系统 和 更 能 适应 外 界 各 种 
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(2) 距离 准则 : 


未 知 汉 字 图 形 的 特征 向 量 与 标准 汉字 图 形 的 特征 向 量 相 应 坐标 差 
的 绝对 值 的 总 和 ， 叫 做 “距离 ”。 根据 距离 准则 ， 可 以 比较 未 知 汉 字 与 
各 个 标准 汉字 之 间距 离 的 大 小 ， 从 而 确定 与 未 知 汉字 的 距离 最 小 的 标 
准 汉字 的 集合 。 


目前 比较 成 熟 的 汉字 识别 方法 有 两 种 ， 一 种 叫 图 形 配 比 法 ， 又 
叫 "统计 判决 法 "或 相关 匹配 法 *， 另 一 种 叫 结构 分 析 法 ， 又 叫 "特征 关 
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(1) 图 形 配 比 法 : 


所 谓 儿 形 配 比 法 ， 束 是 将 输入 的 未 知 汉字 图 形 与 计算 机 内 存 好 的 
标准 汉字 图 形 直 接 进 行 配 比 ， 求 其 相似 度 ， 把 与 未 知 汉字 相似 度 最 大 
的 标准 汉字 判定 为 该 未 知 汉字 的 字 种 。 


图 形 配 比 法 比较 简单 、 直 观 ， 标 准 汉 字样 本 也 比较 容易 建立 ， 但 
这 种 方法 不 便于 区 别 不 同 字 体 的 汉字 ， 更 不 适 于 区 分 形形色色 、 千 变 
万 化 的 手写 体 汉 字 ， 因 此 ， 这 种 方法 主要 用 于 标准 印刷 体 汉 字 的 目 动 


识别 。 


(2) 结构 分 析 法 : 


所 谓 结构 分 析 法 ， 就 古 不 仅 要 辨认 汉子 图 形 的 某 些 特征 是 否 存 
在 ， 而 且 ， 还 要 分 析 这 些 特征 之 间 的 关系 ， 分 析 汉 字 图 形 的 结构 。 使 
用 结构 分 析 法 时 ， 甫 先 要 提取 汉字 的 特征 量 ， 然 后 ， 根 据 未 知 汉字 的 
等 征 量 与 标准 汉字 的 相应 量 来 决定 汉字 的 所 属 。 


表示 汉字 结构 的 量 包括 特征 点 和 笔 道 方 奖 特征 等 。 


OFFER: 


表示 汉字 结构 的 特征 点 有 端 扎 、 二 分 文 点 、 三 分 文 氮 、 四 分 文 操 
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各 有 两 条 线 与 之 相连 ， 它 们 都 是 二 分 文 态 。 


有 二 条 线 和 它 相 连接 的 点 叫 三 分 交 护 ， 如 “J FAR, AH 
条 线 与 之 相连 接 (点 的 左右 各 为 一 条 线 ) ， 是 三 分 支点 。 


有 四 条 线 和 它 相 连接 的 点 叫 四 分 支 护 ， 如 “十 ” 字 中 心 的 交叉 所 ， 
有 四 条 线 与 之 相连 接 (点 的 上 下 左右 各 为 一 条 线 ) ， 是 四 分 文 点 。 


根据 汉字 中 各 个 特征 点 的 分 布 情况 ， 束 可 以 表示 出 汉 于 结构 的 某 
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汉字 的 笔 道 几乎 都 是 由 直线 段 组 成 的 ， 这 些 直线 段 的 分 布 符 
合 “ 米 ?字形 八 个 方 癌 的 分 布 规律 。" 米 ?" 字 有 六 画 ， 这 六 画 在 平面 上 分 布 
于 比较 整齐 的 八 个 方向 : 横 两 个 方 辐 ， 纵 两 个 方 辐 ， 左 冬 两 个 方 同 ， 
右 和 斜 两 个 方 辐 。 这 八 个 方 同 可 用 横 同 、 纵 同 、 左 斜 问 、 右 斜 问 四 个 投 
影 轴 来 表示 。 同 时 ,“ 米 ” 字 还 包括 了 横 、 竖 、 扣 、 撤 、 探 这 五 种 最 基 
本 的 汉子 笔画 。 因 此 ， 在 以 结构 分 析 法 为 基础 的 汉字 目 动 识别 研究 
中 ， 可 以 根据 “ 米 ? 字 形 规律 来 确定 汉字 的 笔 道 方向 特征 和 笔 形 特征 。 


汉字 目 动 识 别 可 以 分 为 印刷 体 汉 字 识 别 和 手写 体 汉 字 识 别 两 种 。 


(1) 印刷 体 汉字 识别 : 


识别 印刷 体 汉字 时 ， 青 先 使 用 光学 的 方法 ， 通 过 光电 转换 设备 将 
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的 时 间 ， 识 别 速 度 会 很 慢 。 随 着 待 识 别 汉字 数量 的 增加 ， 识 别 速 度 还 
会 明显 降低 。 


为 了 提高 识别 速度 ， 一 般 都 采取 分 层次 识别 的 方法 ， 用 汉字 的 某 
E s 层次 的 整体 ， 尽量 地 容忍 畸变 和 干扰 ， 以 逐 层 缩小 
识别 范围 。 


这 样 一 来 ， 印 刷 体 汉字 的 自动 识别 就 可 以 分 为 确定 候选 字 集 、 模 
式 匹配 、 特 殊 判 定 三 个 层次 。 这 三 个 层次 实际 上 就 代表 了 印刷 体 汉字 
识别 的 三 个 步骤 。 


步骤 1 一 一 确定 候选 字 集 

把 汉字 分 为 寿 干 个 大 的 类 别 ， 首 先 判 断 输 入 的 未 知 汉字 属于 哪 一 
类 ， 并 把 这 一 类 作为 候选 字 集 。 再 将 未 知 汉 字 与 候选 字 集 里 的 标准 汉 
字 逐 一 进行 匹配 。 这 样 可 以 有 效 地 减少 匹配 的 对 象 ， 提 高 识别 的 速 
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确定 候选 字 集 的 方法 主要 有 以 下 几 种 : 
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哈尔滨 工业 大 学 电气 工程 系 对 5 791 个 汉字 进行 偏旁 切割 ， 得 到 如 
下 的 结果 ( 表 18.1) : 


表 18.1 mss Sl 


这 样 ， 便 把 5 791 个 汉字 按 偏 旁 分 为 293 类 。 在 汉字 识别 时 ， 要 识别 
的 汉字 首先 按 偏旁 的 位 置 进入 这 293 类 的 某 一 类 之 中 ， 由 于 每 类 的 平均 
字数 不 过 20 个 ， 因 此 ， 这 20 个 左右 的 汉字 便 被 确定 为 候选 字 集 ， 从 而 
大 大 地 缩小 了 识别 范围 。 实 际 上 ， 汉 字 偏 旁 并 不 是 平均 分 布 的 ， 例 
如 ， 左 偏旁 组 中 单 人 旁 这 一 类 就 有 164 字 。 但 不 管 怎 么 说 ， 确 定 了 候选 
字 集 使 得 汉字 匹配 的 范围 大 为 缩小 ， 为 进一步 识别 提供 了 方便 。 
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复杂 度 是 指 汉 字 的 线段 密度 ， 分 为 水 平复 杂 度 和 垂直 复杂 度 两 
种 。 水 平复 杂 度 是 汉字 在 水 平方 向 上 的 笔画 长 度 之 和 与 它 在 水 平方 向 
上 的 轴 投 影 长 度 的 比值 ， 记 为 Cx; 垂直 复杂 度 是 汉字 在 垂直 方向 上 的 
笔画 长 度 之 和 与 它 在 垂直 方向 上 的 轴 投 影 长 度 的 比值 ， 记 为 Cy。 显 而 
易 见 ， 以 横 笔 画 为 主 的 字 Cx 值 较 高 ， 如 “ 量 ”*“ 腔 ”等 ， 以 竖 笔画 为 主 的 
字 Cy 值 较 高 ， 如 “ 删 * 酬 * 等 ， 斜 笔 多 的 字 ，Cx 与 Cy 的 值 往往 比较 接 
近 ， 如 “ 众 ”“ 粉 ”等 。 一 般 地 说 ， 笔 画 少 的 子 ，Cx 与 Cy 的 值 都 比较 低 ， 
笔画 多 的 字 ，Cx 与 Cy 的 值 都 比较 高 。 


如 果 以 Cx 作为 横 坐 标 ， 以 Cy 作为 纵 坐 标 ， 束 可 以 把 每 个 汉子 对 应 
于 平面 坐标 系 上 的 一 个 点 ， 从 而 获得 一 张 汉字 复杂 度 分 布 图 。 这 张 分 
布 图 就 是 汉字 的 复杂 度 索 引 。 当 输入 一 个 汉字 时 ， 先 计算 汉字 在 汉字 
复杂 度 分 布 图 上 对 应 的 坐标 点 ， 以 这 个 点 为 中 心 ， 画 一 个 圆圈 ， 把 落 
在 圆圈 内 的 几 十 个 汉字 作为 候选 字 集 。 


(3) 外 框 编码 法 


在 每 个 汉字 的 上 下 左右 ， 用 固定 尺寸 的 长 方形 加 以 切割 ， 根 据 落 
入 每 个 方 框 中 点 于 数目 的 多 少 ， 用 数字 0，1，2 加 以 编码 : 落 入 方 框 中 
太子 少 的 为 0， 落 入 方 框 中 后 子 多 的 为 2， 不 多 不 少 的 为 1°。 然后 ， 
按 “ 上 左下 右 ” 的 敢 时 针 方 同 将 数字 排列， 构成 一 个 汉字 的 外 框 编 码 。 
例如 ， 图 18.3 的 “ 昨 ” 字 ， 上 框 中 点 子 少 ， 代 码 为 0， 左 框 中 扣子 多 ， 代 
码 为 2， 下 框 中 点 了 于 少 ， 代 码 为 0， 右 框 中 点子 不 多 不 少 ， 代 码 为 1， 得 
到 “ 昨 ” 字 的 外 框 编码 为 0201 。 
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图 18.3 ”外 框 编码 


将 汉字 按 外 框 编码 的 异同 进行 分 类 ， 把 同一 外 框 编码 的 汉字 归 为 
一 类 ， 便 可 确定 汉字 的 候选 字 集 。 例 如 ， 外 框 编码 为 0021 的 汉子 
有 “ 仕 ， 任 ， 佐 ， 借 ， 倍 ， 枚 ， 舍 ， 含 ”"， 它 们 便 构成 一 个 候选 字 集 。 


模糊 点 阵 法 


如 宁 汉 字 的 原始 模式 为 32x32 点 阵 ， 通 过 对 每 个 2x2 的 小 点 阵 重 新 
编码 ， 可 获得 16x16 的 一 个 模糊 点 阵 ， 对 于 这 个 新 的 模糊 点 阵 中 的 每 个 
2x2 点 阵 再 重新 编码 ， 则 可 获得 8x8 的 一 个 更 加 模糊 的 点 阵 ， 继 续 模 
糊 ， 可 得 到 4x4 的 模糊 点 阵 。 对 于 原始 点 阵 而 言 ， 它 一 定 是 可 以 区 别 汉 
字 的 ， 但 是 ， 每 次 模糊 都 可 能 使 若干 个 汉字 共有 一 个 模糊 点 阵 。 如 末 


每 个 模糊 点 阵 部 代表 一 组 汉子 ， 则 这 组 汉子 就 构成 一 个 候 远 子 集 。 这 
个 候选 字 集 当中 的 每 一 个 汉字 ， 输 入 是 都 有 相同 的 模糊 点 阵 。 


上 述 各 种 确定 候选 字 集 的 办 法 ， 可 以 根据 识别 汉字 时 的 不 同 需要 
加 以 选用 ， 也 可 以 结合 起 来 使 用 。 


步骤 2 一 一 模式 匹配 : 

确定 候选 字 集 后 ， 在 一 个 候选 字 集 中 ， 一 般 都 会 有 十 几 个 甚至 几 
十 个 汉字 ， 第 二 层次 的 工作 ， 融 生 把 行 识 别 的 汉字 同 候选 字 集 中 的 汉 
字 进 行 模式 匹配 ， 计 算 二 者 的 相似 度 ， 从 中 选 出 相似 度 最 大 者 。 

模式 匹配 还 可 以 在 一 个 汉字 的 局 部 范围 内 进行 。 例 如 ， 可 以 在 汉 


字 的 四 个 角 上 切割 出 四 个 小 块 ， 分 别 进行 匹配 。 当 然 ， 为 了 保证 局 部 
匹配 的 合理 性 ， 这 种 切割 必须 苯 循 一 定 的 规 施 来 进行 。 


步骤 3 一 一 特殊 判定 : 


在 四 个 角 都 完全 匹配 时 ， 并 不 能 保证 整个 汉字 一 定 匹 配 。 例 
如 ,“ 候 关 侯 ?二 字 ， 四 个 角 完 全 匹配 ， 但 整个 汉字 并 不 匹配 。 再 
如 “ 伐 * 代 ”，“ 体 ”“ 休 ”都 是 如 此 。 这 时 ， 就 必须 对 汉字 中 的 某 些 特殊 部 
位 进行 判定 ， 或 者 计算 特殊 部 件 的 笔画 密度 ， 或 者 采用 其 他 方法 。 这 
样 ， 才 能 对 输入 的 汉子 作出 最 后 识别 。 


(2) 手写 体 汉字 识别 


手写 体 汉 字 的 识别 一 般 不 采用 图 形 匹 配 法 ， 而 采用 结构 分 析 法 ， 
因为 手写 体 汉字 不 如 印刷 体 汉字 工整 ， 识 别 时 除了 要 判别 其 是 否 存在 
某 种 特征 之 外 ， 更 重要 的 是 判断 、 分 析 这 些 特征 之 间 存 在 什么 样 的 天 
系 ， 这 样 才能 取得 较 好 的 识别 效 采 。 


手写 体 汉 字 识 别 又 可 以 分 为 联机 手写 体 汉 字 识 别 和 脱 机 手写 体 汉 
字 识 别 两 大 类 。 


在 与 计算 机 相 联 的 书写 板 上 写 出 汉字 ， 边 写 边 由 计算 机 来 识别 ， 
叫做 联机 手写 体 汉 字 识 别 。 书 写 板 的 有 效 部 分 形成 一 个 NxN 的 点 阵 ， 
以 右 下 角 作 为 该 点 阵 所 构成 的 直角 坐标 系 为 原点 ， 则 点 阵 中 的 每 一 个 
点 ， 都 与 直角 坐标 系 中 的 一 个 坐标 位 置 相 对 应 。 当 用 笔 在 书写 板 上 书 
写 时 ， 随 着 笔 的 移动 ， 计 算 机 的 硬件 部 分 不 断 输出 数据 ， 当 一 个 有 n 个 
笔画 的 汉字 写 完 时 ， 便 件 也 束 输 出 了 n 组 数据 ， 摘 述 出 每 个 笔画 的 轨 


迹 。 


哈尔滨 工业 天 学 电气 工程 系 提出 了 一 种 “有 限制 手写 体 汉 字 联 机 识 
别 法 ”， 对 手写 体 汉 字 作 了 茶 些 限制 (如 笔画 的 种 类 、 长 短 、 宽 罕 都 有 
严格 规定 ) ， 当 按照 这 些 限 制 书 写 汉 字 时 ， 计 算 机 就 能 逐 笔 地 将 每 一 
个 笔画 的 起 始点 和 结束 点 的 坐标 输入 机 内 ， 形 成 一 组 数据 。 每 接受 一 
组 数据 ， 计 算 机 束 蕊 上 迅速 地 作 笔画 识别 ， 进 行 笔 画 记 数 、 偏 旁 分 
析 ， 然 后 将 侦 旁 进行 匹配 ， 束 可 以 得 到 最 终 的 识别 结果 。 


不 用 特殊 的 书写 板 ， 对 脱离 计算 机 书写 的 汉字 进行 计算 机 识别 ， 
叫做 脱 机 手写 体 汉子 识别 。 
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需要 完成 两 项 工作 : 


抽取 图 形 的 特征 值 。 这 些 特征 值 既 要 能 完备 地 描述 整个 汉字 图 
形 ， 而 特征 值 的 个 数 又 要 尽 可 能 地 少 ， 这 就 需要 对 汉字 从 总 体 上 进行 
细致 的 分 析 。 


人 建立 样板 字典 库 。 要 求 以 尽 可 能 少 的 样板 ， 对 尽 可 能 多 的 允许 
瞳 变 的 汉字 字体 图 形 进行 识别 ， 这 就 需要 在 允许 限度 下 ， 对 样板 进行 
模糊 处 理 ， 以 便 大 量 广 省 存储 样板 的 空间 。 


另外 ， 对 于 汉字 笔画 按 “ 米 ”字形 规律 分 布 的 八 个 方 同 上 的 定位 ， 
也 要 进行 模糊 处 理 。 因 为 手写 体 汉字 在 手写 时 允许 畏 变 ， 其 笔画 不 可 
能 丝毫 不 差 地 分 布 在 “* 米 ?字形 的 八 个 方向 上 。 他 们 规定 ， 人 允许 在 每 个 
方 回 上 有 +22.5° 的 偏 畸 ， 也 就 是 把 相对 于 每 个 方 同 +22.5° 的 笔画 都 归结 
于 这 个 方向 。 这 样 ， 束 不 作对 略 有 方向 畸变 的 汉字 为 六 样板， 从 而 减 
少 了 字典 库 里 样板 的 数目 。 


汉字 识别 是 一 个 浩 系 的 研究 课题 。 由 于 汉字 字体 繁多 、 字 形 复 
杂 ， 需 要 处 理 和 存储 的 信息 量 比 拉丁 字母 大 几 百 倍 。 为 了 促进 汉字 识 
别 研究 的 进展 ， 必 须 加 强 汉 字 的 整理 和 规范 化 工作 ， 确 定 汉字 的 书写 
笔顺 、 笔 形 次序 、 结 构 方式 的 规范 ， 这 样 ， 汉 字 识 别 的 研究 就 会 更 
快 、 更 好 地 发 展 。 语 言 文字 工作 者 在 这 个 领域 吓 大 有 可 为 的 。 


我 国 目 20 世 纪 70 年 代 开 始 汉字 目 动 识别 的 研究 ， 从 1986 年 至 今 取 
得 了 很 大 的 成 绩 。 


联机 手写 体 汉 字 识 别 已 经 商品 化 ， 有 些 产品 的 性 能 达到 国际 水 
平 ， 识 别 的 汉字 字数 为 6 763—42 000 个 ， 识 别 正确 率 初次 使 用 为 80% 左 
右 ， 经 常 使 用 可 达 95% 以 上 ， 识 别 速度 基本 上 能 跟 上 人 的 书写 速度 。 


印刷 体 汉 字 识 别 也 实用 化 了 。 有 十 多 个 单位 推出 了 实用 化 系统 ， 
可 识别 国家 标准 的 1 级 和 2 级 简体 汉字 3 755 到 6 763 个 ， 繁 体 汉 字 5 401 
个 ; 可 识别 的 汉字 字体 ， 简 体 有 宋 、 仿 宋 、 报 宋 、 黑 、 楷 以 及 多 体 混 
排 ， 索 体 有 明 、 楷 、 仿 、 墨 等 ， 也 可 以 识别 多 体 英 文 混 排 。 这 些 系统 


还 配备 了 方便 的 用 户 界 面 ， 能 够 进行 版 面 分析 、 文 本 识别 、 识 别 结 采 
的 后 处 理 、 上 自动 纠 错 、 编 辑 、 输 出 等 。 


脱 机 手写 印刷 体 汉 字 和 无 书写 限制 的 脱 机 手写 体 汉 字 的 识别 近 几 
年 也 进行 了 许多 研究 ， 建 成 了 一 些 试验 系统 ， 现 已 有 近 于 实用 的 交互 
式 目 学 脱 机 手写 体 汉 字 识 别 系统 ， 可 识别 国标 一 级 汉字 3 755 个 ， 加 上 
专用 特征 库 可 识别 不 加 任何 书写 限制 的 汉字 。 


由 于 我 国 的 汉字 识别 系统 几乎 都 是 在 汉字 操作 系统 下 工作 的 ， 识 
别 结 采 为 汉字 内 码 ， 因 而 可 以 把 识别 出 的 汉字 直接 在 计算 机 上 显示 或 
打印 出 来 。 


汉字 识别 如 果 不 古 仅仅 局 限于 一 个 字 一 个 字 地 孤立 地 进行 模式 匹 
配 ， 而 且 还 利用 词 以 及 上 下 文 关系 的 信息 ， 将 会 显著 地 提高 识别 的 正 
确 率 。 例 如 ， 在 汉字 识别 系统 中 ， 利 用 汉字 单词 和 词组 的 信息 来 进行 
目 动 纠 错 ， 利 用 语言 知识 修改 部 分 误 识 字 ， 利 用 词 的 联想 来 修改 误 识 
字 和 拒 识字 ， 都 获得 了 很 好 的 识别 效 采 。 


因此 ， 把 目 然 语言 计算 机 处 理 的 技术 应 用 到 汉子 的 目 动 识别 中 ， 
HA NF AAA ASME 。 
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结束 语 


目 然 语言 的 计算 机 处 理 是 一 门 边缘 性 学 科 ， 它 与 应 用 语言 学 有 着 
十 分 密切 的 关系 。 在 这 里 ， 我 们 打算 从 应 用 语言 学 的 角度 ， 对 我 国 目 
然 语言 计算 机 处 理 的 研究 提出 一 些 不 成 熟 的 意见 ， 作 为 本 书 的 结束 


语 。 


目 然 语 言 处 理 这 | ] 学 科 不 仅 对 于 语言 学 本 身 的 发 展 起 到 了 重要 作 
用 ， 对 于 国民 经 济 的 发 展 ， 也 有 着 光 在 的 巨大 价值 。 近 年 来 ,我国 的 
目 然 语 言 处 理 有 了 很 大 的 进步 ， 取 得 了 令 人 瞩目 的 成 绩 ， 有 力 地 促进 
了 我 国 计 算 机 产业 的 民族 化 ， 促 进 了 计算 机 在 我 国人 民 当 代 语 言 文字 
生活 中 的 普及 和 推广 。 


但 是 ,我国 目 然 语 言 处 理 的 发 展 水 平 ， 与 发 达 国 家 相 比 ， 还 有 着 
相当 大 的 差距 ， 为 了 进一步 提高 我 国 目 然 语 言 处 理 的 研究 水 平 ， 我 们 
应 该 注意 我 国 目 然 语言 处 理 研 究 的 世界 化 问题 。 


我 国 目 然 语言 处 理 的 世界 化 包括 两 方面 的 内 容 ， 一 方面 ， 我 们 应 
该 努力 学 习 国 外 的 先进 理论 和 方法 ， 缩 短 与 世界 的 差距 ， 另 一 方面 ， 
我 们 应 该 结合 汉语 汉字 的 特点 ， 创 造 出 独 具 中 国 特色 的 理论 和 方法 ， 
为 世界 自然 语言 处 理 的 发 展 做 出 贡献 。 


首先 谈 第 一 个 方面 的 问题 。 我 国 的 目 然 语言 处 理 研 究 过 去 没有 花 
足够 的 力量 来 了 解 国外 自然 语言 处 理 的 最 新 成 就 。 我 国 的 传统 语言 学 
研究 有 一 个 不 足 的 地 方 ， 殊 是 许多 人 研究 人 员 没 有 阅读 外 国文 献 的 习 


惯 ， 他 们 写 的 文章 ， 很 少 引 用 国外 的 研 守 成 采 ， 他 们 的 研究 完全 是 闭 
门 造 车 ， 既 不 同 国内 的 同行 学 习 任何 东西 ， 也 不 回 外 国学 习 任 何 东 
西 。 由 于 不 阅读 国外 的 文献 ， 许 多 人 研究 第 常 是 重复 在 国外 早已 做 过 的 
工作 ， 往 往事 倍 而 功 半 ， 以 至 我 国 的 语言 学 研究 同 国际 语言 学 的 潮流 
严重 脱节 。 这 种 不 恨 的 习惯 也 市 到 了 目 然 语言 处 理 的 研究 中 来 ， 我 们 
有 些 目 然 语 言 处 理 研 究 人 员 ， 也 不 重视 国外 目 然 语言 处 理 的 新 理论 新 
方法 。 近 年 来 ， 国 外 目 然 语 言 处 理 的 理论 和 实践 都 有 了 很 大 的 发 展 。 
在 理论 方面 ， 马 丁 凯 依 所 出 了 "功能 合 一 语法 ”， 卡 普兰 和 布 列 斯 南 拓 
出 了 “词汇 功能 语法 ”， 兰 效 达 提出 了 “广义 短语 结构 语法 ”>， 还 有 乔 姆 
斯 基 的 “管辖 约束 理论 >。 这 些 理论 研究 ， 突 破 了 传统 的 框架 ， 更 加 重 
视 词 汇 对 句法 的 作用 ， 更 加 重视 语义 的 作用 ， 把 语言 的 形式 研究 逐渐 
地 从 形态 和 句法 转 到 了 词汇 和 语义 方面 ， 在 词汇 乎 面 上 上， 探索 语言 的 
词汇 个 性 ， 在 语义 平面 上 ， 探 索 语言 的 语义 共性 ， 从 而 把 个 性 规则 的 
研究 和 共性 规则 的 研究 在 新 的 基础 上 结合 起 来 ; 这 些 理论 不 仅 注 意 研 
完 印 欧 语言 ， 也 力图 研究 世界 的 各 种 语言 ， 有 些 目 然 语 言 处 理 的 专 
家 ， 能 够 运用 多 种 语言 ， 因 而 这 些 理论 具有 一 般 性 ， 既 适用 于 印 欧 语 
言 ， 也 适用 于 汉语 。 这 些 理论 与 传统 的 理论 还 有 一 个 重要 的 区 别 : 传 
统 理论 一 般 只 讲 原 理 ， 而 这 些 理论 则 着 重 于 讲 方 法 ， 带 有 强烈 的 方法 
论 色彩 ， 可 以 很 方便 地 在 计算 机 上 实现 ， 具 有 可 操作 性 。 方 法 常 第 是 
一 般 性 的 ， 不 会 党 有 个 别 语言 特性 的 偏 同 ， 因 而 这 些 市 有 方法 论 色彩 
的 理论 ， 也 可 适用 于 汉语 。 那 种 认为 国外 的 目 然 语言 处 理 的 理论 只 适 
用 于 印 欧 语 言 而 不 适用 于 汉语 的 说 法 ， 有 是 不 符合 事实 的 。 我 们 在 汉语 
的 研究 中 国 然 有 必要 注意 汉语 不 同 于 其 他 语言 的 特点 ， 但 如 有 果 过 分 强 
调 汉语 的 特殊 性 ， 而 不 重视 汉语 与 其 他 语言 所 共有 的 一 般 性 的 语言 理 
论 和 方法 ， 束 会 走 辣 反面 ， 把 汉语 的 研究 与 世界 的 语言 学 研究 隔离 起 
来 ， 阻 碍 汉语 人 研究 的 发 展 。 目 前 ， 国 外 学 者 对 于 词汇 功能 语法 、 广 义 
短语 结构 语法 、 管 辖 约束 理论 的 计算 复杂 性 ， 已 经 进行 了 严格 的 精密 


的 分 析 和 论证 ， 使 得 这 些 理论 更 加 紧密 地 与 计算 机 技术 结合 在 一 起 。 
其 中 ， 功 能 合 一 语法 理论 中 的 “ 合 一 ”的 概念 本 身 就 是 从 现代 数理 逻辑 
中 借 来 的 ， 该 理论 有 着 十 分 严格 的 运算 法 则 。 上 述 这 些 理论 与 计算 机 
技术 有 着 十 分 密切 的 关系 ， 不 仅 适 用 于 外 国 的 计算 机 ， 也 同样 适用 于 
中 国 的 计算 机 ， 不 仅 适 用 于 外 国 的 语言 研究 ， 也 同样 地 适用 于 中 国 的 
语言 研究 。 目 前 ， 我 国语 言 工 作者 ， 甚 至 不 少 专门 从 事 自 然 语言 处 理 
的 学 者 ， 对 于 国外 这 些 有 价值 的 理论 还 很 不 熟悉 ， 又 缺乏 虚心 学 习 的 
愿望 ， 这 样 下 去 ， 将 会 贻误 我 国 的 语言 学 事业 ， 尤 其 是 自然 语言 处 理 
事业 ， 对 此 我 们 决 不 能 掉以轻心 ， 我 们 应 该 采取 “ 拿 来 主义 ”的 态度 ， 
吸取 这 些 理论 中 的 精华 部 分 ， 从 而 推动 我 国 自 然 语言 处 理 的 发 展 。 在 
实践 方面 ， 国 外 已 经 研制 成 功 不 少 的 实用 的 自然 语言 处 理 系统 ， 如 美 
国 的 SYSTRAN 机 器 翻译 系统 、 加 拿 大 的 TAUM-METEO 机 器 翻译 系 
统 、 日 本 的 ATLAS 系 统 、 谷 歌 公司 的 网 上 多 语言 翻译 系统 等 等 ， 我 们 
应 该 借鉴 国外 的 实际 经 验 ， 努 力促 进 我 国 自 然 语言 处 理 研究 的 实用 化 
和 商品 化 ， 使 自然 语言 处 理 的 产品 早日 走 入 市 场 ， 使 之 产生 出 巨大 的 
经 济 效 益 来 。 


学 习 国 外 目 然 语言 处 理 研 究 成 果 的 目的 是 为 了 搞 好 中 国 上 自己 的 目 
然 语 言 处 理 研 究 ， 为 世界 的 目 然 语言 处 理 做 出 页 献 ， 从 而 促进 中 国 目 
然 语 言 处 理 研 究 的 世界 化 ， 因 此 ， 我 们 在 学 习 国 外 目 然 语言 处 理 的 理 
论 和 方法 的 同时 ， 还 应 该 立足 于 中 国 的 实际 ， 像 我 国明 代 杰 出 的 思想 
家 王夫之 所 说 的 那样 , “不 迷 其 所 同 ， 亦 不 失 其 所 以 异 ”， 结 合 汉 语 汉 
字 的 特点 ， 努 力 建立 有 中 国 特 色 的 、 适 合 于 汉语 的 目 然 语 言 处 理 的 计 


算 语言 学 。 


为 了 建立 有 中 国 特色 的 计算 语言 学 ， 我 们 应 当 采 取 如 下 措施 : 首 
先 ， 我 们 应 该 提倡 汉语 语言 学 工作 者 和 计算 机 工作 者 的 结合 。 


我 国有 一 大 批 有 成 束 的 汉语 语言 学 家 ， 他 们 以 广博 的 知识 和 非凡 
的 洞察 力 ， 对 汉语 进行 了 细致 而 深刻 的 分 析 ， 取 得 了 丰硕 的 研究 成 
果 。 但 是 ， 长 期 以 来 ， 由 于 学 科 之 间 的 隔绝 ， 汉 语 语言 学 家 的 研究 很 
少 考虑 到 目 然 语言 处 理 的 需要 ， 有 些 语 言 学 的 研究 成 果 ， 离 社会 生活 
实践 很 远 ， 这 些 成 果 ， 往 往 只 是 语言 学 家 渊博 知识 的 证 明 ， 而 不 具有 
多 少 社会 实践 意义 。 在 传统 的 汉语 语言 学 的 研究 中 ， 往 往 越 是 高 深 的 
学 问 ， 其 社会 实践 意义 越 不 明显 。 在 这 种 情况 下 ， 面 对 当今 我 国医 动 
发 展 的 市 场 经 济 ， 有 人 发 出 了 “语言 学 无 用 论 ” 的 慨 疏 。 


其 实 ， 语 言 是 信息 最 重要 的 载体 ， 茹 茹 日 上 、 瞬 居 万 变 的 社会 需 
要 了 解 信息 ， 而 目 然 语言 处 理 的 目的 吏 是 抽取 和 挖掘 洪 藏 在 语言 中 的 
言 轧 ， 因 而 必然 会 同市 场 经 济 的 社会 发 生生 丝 万 缕 的 联系 ， 这 样 ， 面 
向 计算 机 的 汉语 研究 就 会 与 中 国 社会 主义 市 场 经 济 的 进步 息息相关 。 
汉语 语言 学 的 研究 必定 会 促进 中 国 目 然 语 言 处 理 的 研究 ， 汉 语 语 言 学 
家 在 目 然 语言 处 理 的 研究 中 是 大 有 可 为 的 。 汉 语 语言 学 界 的 同志 们 应 
该 苑 服 那 种 无 所 作为 的 消极 情绪 ， 应 该 走出 "网 语言 为 语言 而 斌 冤 语 
言 ”的 象牙 塔 ， 到 目 然 语言 信息 处 理 的 实践 中 去 看 一 看 ， 这 样 就 会 了 解 
到 汉语 语言 学 所 具有 的 巨大 的 潜在 价值 ， 吏 可 以 在 狐 的 领域 中 继续 发 
挥 他 们 的 聪明 才智 。 目 前 ， 目 然 语 言 处 理 的 研究 对 汉语 语言 学 提出 了 
一 系列 的 新 问题 ， 如 中 文 文本 的 目 动 切 分 问题 、 中 文句 子 的 歧义 结构 
问题 、 中 文 语料库 和 树 库 的 建立 问题 、 中 文句 法 语义 目 动 分 析 问 题 ， 
等 等 。 加 速 这 些 问 题 的 研究 ， 促 成 这 些 问题 的 解决 ， 将 会 有 力 地 促进 
中 国 目 然 语言 处 理 研究 的 发 展 ， 从 而 产生 出 巨大 的 经 济 效益 和 深远 的 
社会 影响 。 这 不 仅 对 于 汉语 语言 学 ， 而 且 对 于 人 文科 学 和 目 然 科 学 的 
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汉语 语言 学 家 应 该 到 目 然 语言 处 理 的 研究 中 选取 目 己 的 课题 ， 计 
算 机 工作 者 也 有 必要 把 他 们 在 自然 语言 处 理 研究 中 遇 到 的 各 种 汉语 语 
言 学 问题 ， 以 汉语 语言 学 家 可 以 理解 的 形式 ， 提 供给 他 们 。 汉 语 语言 
学 家 和 计算 机 专家 的 结合 ， 将 使 我 国 的 目 然 语 言 处 理 研 究 如 虎 添 站， 
得 到 更 大 的 发 展 。 


我 国 的 大 多 数 语 言 学 家 长 期 从 事 人 文科 学 的 研究 ， 习 惯 于 “一 本 
书 、 一 张 纸 、 一 文笔 "的 研究 模式 ， 他 们 勤 于 用 手工 的 方式 “ 笔 入 ”， 但 
对 于 计算 机 了 解 不 多 ， 刚 接触 计算 机 时 ， 利 有 神秘 长 惧 之 感 ， 不 敢 大 
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为 了 让 语言 学 家 直接 上 计算 机 工作 ， 软 件 工 作者 还 应 该 设计 对 语 
讲学 家 友好 的 人 机 界面 ， 给 语言 学 家 提供 一 个 有 利于 发 挥 其 特长 的 目 
然 语 言 研究 环境 。 我 们 相信 ， 语 言 学 家 一 旦 在 这 样 友好 的 人 机 界面 之 
下 工作 ， 他 们 对 计算 机 就 会 熟悉 起 来 ， 束 会 逐渐 改变 传统 的 手工 研究 
方式 。 这 样 ， 他 们 丰富 而 渊博 的 语言 学 知识 ， 束 有 可 能 最 大 限度 地 在 
计算 机 工作 中 发 挥 出 来 。 在 这 样 的 过 程 中 ， 有 的 语言 学 家 还 有 可 能 成 
为 计算 机 专家 ， 成 为 文理 兼 通 的 新 型 人 才 。 有 了 这 样 一 批 人 才 ， 我 国 
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上 的 边缘 性 学 科 ， 处 于 文科 、 理 科 和 工科 的 交叉 点 上 。 应 当 提倡 这 三 
个 学 科 的 研究 人 员 在 目 然 语 言 处 理 的 研究 领域 内 做 适当 的 分 工 ， 发 挥 
各 目的 专长 。 但 是 ， 像 目 然 语言 处 理 这 样 复杂 的 研究 课题 ， 人 研究 人 员 
的 知识 如 采 仅 仅 局 限于 一 个 学 科 之 内 ， 不 积极 地 汲取 其 他 两 门 学 科 的 
知识 ， 束 不 能 将 这 三 方面 的 知识 有 机 地 结合 起 来 ， 从 而 最 大 限度 地 发 
挥 他 们 本 专业 知识 的 作用 。 因 此 ， 我 们 要 促进 目 然 语言 处 理 研 究 人 员 
的 知识 更 新 ， 改 善 我 国 目 然 语 言 处 理 人 研究 人 员 的 知识 结构 。 一 个 好 的 


目 然 语 言 处 理 研 究 人 员 ， 对 于 目 己 的 本 专业 知识 固然 应 该 是 精 人 研 通 达 
的 内 行 ， 但 对 于 男 外 两 个 相关 学 科 的 知识 也 绝 不 能 是 似 懂 非 慌 的 外 
行 。 对 于 自然 语 处 理 言 的 研究 者 来 说 ， 传 统 的 “一 次 性 教育 "已 是 一 个 
陈旧 的 观念 。 教 育 不 再 仅仅 是 进入 工作 岗位 前 的 准备 阶段 ， 我 们 要 不 
断 地 进行 知识 的 更 新 ， 现 代 语 言 学 、 现 代数 学 、 现 代 计 算 机 科学 以 及 
由 这 些 学 科 相 互 渗透 而 产生 的 数理 语言 学 、 统 计 语 言 学 、 计 量 语言 
学 、 语 料 库 语言 学 等 莉 兴 学 科 ， 都 是 我 们 应 该 熟悉 的 知识 ， 每 一 个 决 
心 从 事 目 然 语言 处 理 的 研究 人 员 ， 都 要 力争 使 目 己 成 为 文理 兼 通 、 博 
识 多 才 的 人 。 如 采 我 们 的 业务 聚 质 提 高 了 ， 束 有 可 能 将 精 滥 的 现代 化 
科学 知识 转化 为 生产 力 ， 计 算 机 化 的 语言 知识 也 将 成 为 生产 力 的 一 个 
组 成 部 分 ， 从 而 有 力 地 推动 中 华 民 族 的 振兴 。 日 本 布 拉 维 斯 国际 公司 
的 日 英 机 右 翻 译 系 统 ， 是 一 个 由 一 百 多 人 组 成 的 小 组 ， 经 过 七 年 的 奋 
战 才 人 研制 成 功 的 。 这 个 研究 组 中 有 三 十 三 人 古人 研究 员 水 平 的 专家 ， 占 
小 组 的 百 分 之 三 十 左右 ， 由 此 可 见 目 然 语言 处 理 研究 人 员 素 质 之 重 
要 。 为 了 进一步 推动 我 国 的 目 然 语言 处 理事 业 ， 我 们 切 不 可 忽视 这 个 


问题 。 
其 次 ， 要 处 理 好 探索 性 研究 和 工程 性 研究 的 关系 。 


实用 的 机 器 翻译 系统 、 人 机 对 话 系 统 、 信 息 检 索 系 统 、 信 息 抽取 
系统 、 文 本 数据 挖掘 系统 、 目 然 语言 智能 控制 系统 ， 都 是 要 经 过 长 期 
的 调试 和 不 断 的 优化 才 可 能 建成 的 。 在 进行 这 样 的 工程 性 的 目 然 语言 
处 理 研 究 的 初期 阶段 ， 必 定 要 进行 大 量 的 艰 理 的 探索 性 研究 。 例 如 ， 
在 工程 性 的 机 器 翻译 系统 的 研制 过 程 中 ， 首 先 要 进行 探索 性 研究 ， 着 
重 探索 机 融 词 典 中 着 用 词 的 规律 ， 不 要 一 开始 吏 去 言 目 地 扩大 词典 的 
容量 。 因 为 机 器 词典 中 每 增加 一 个 常用 词 ， 整 可 能 要 在 系统 中 增加 新 
的 规则 ， 或 者 要 修改 原 有 的 规则 ， 而 新 的 规则 的 发 现 和 增加 ， 又 往往 


会 导致 整个 系统 的 规则 的 重 者 组 合 和 调整 。 只 有 当 词 典 中 稍 用 词 的 信 
思 基 本 上 定 下 来 ， 利 用 词 的 频率 黎 兰 面 增加 到 所 研究 的 子 语言 素材 的 
90% 以 上 ， 而 且 系 统 的 规则 基本 上 能 反映 这 种 子 语言 的 语法 面 狐 和 语 
义 关 系 的 时 候 ， 才 有 可 能 进入 工程 性 研究 的 阶段 。 篆 用 词 一 般 都 是 语 
法 多 义 词 或 语义 多 义 词 ， 如 英语 的 of， 法 语 的 de， 汉 语 的 “的 ”等 高 频 
率 闻 用 词 ， 其 用 法 是 极为 复杂 的 ， 而 如 采 这 些 音 用 词 的 信息 处 理 不 
当 ， 由 于 它们 在 文 草 中 到 处 出 现 ， 必 将 严重 地 影响 到 规则 系统 的 质量 
和 效用 。 因 此 ， 在 探索 性 研究 阶段 ， 一 定 要 下 藻 工 夫 来 全 究 第 用 词 的 
用 法 和 它们 的 基本 语法 语义 规律 。 到 了 工程 性 的 研究 阶段 ， 才 来 有 针 
对 性 地 扩充 词典 ， 进 一 步 优化 规则 。 这 一 阶段 的 工作 量 也 很 大 。 但 
征 ， 只 要 探索 性 阶段 的 研究 做 得 扎实 ， 吏 可 以 保证 工程 性 阶段 研究 的 
顺利 进行 ， 收 到 水 到 渠 成 的 效果 。 所 以 ， 在 目 然 语言 处 理 的 工程 性 系 
统 研 制 的 全 过 程 中 ， 应 该 把 主要 力量 放 在 探索 性 人 研究 阶段 ， 决 不 能 急 
于 求 成 ,为 了 急于 要 搞 工 程 性 研究 而 放弃 探索 性 研究 。 探 索性 研究 做 
得 越 好 ， 我 们 就 能 越 深 入 地 了 解 汉语 的 性 质 ， 发 现 汉 语 更 多 的 特性 ， 
从 而 丰富 世界 计算 语言 学 的 内 容 。 


第 三 ， 应 该 处 理 好 全 局 性 研究 和 局 部 性 研究 的 关系 。 


以 机 需 翻 译 的 人 研究 为 例 ， 过 去 我 国 许多 机 需 翻 译 系 统 的 研究 工 
作 ， 一 般 总 是 选择 一 定数 量 的 聚 材 ， 然 后 对 这 些 素材 进行 语言 调查 ， 
抽象 出 其 语法 语义 规则 ， 最 后 根据 语言 调查 的 结果 ， 编 制 机 器 翻译 的 
规则 系统 ， 建 立 机 器 词典 。 由 于 规则 和 词典 都 是 针对 事先 选择 好 的 语 
言 素 材 编制 的 ， 所 以 ， 在 这 些 有 限 的 素材 范围 内 ， 一 般 都 能 够 得 到 比 
较 好 的 译文 ， 但 是 ， 一 旦 增加 新 的 语言 材料 ， 译 文 的 质量 就 会 急剧 地 
下 降 。 用 这 样 的 方式 建立 的 机 右 翻 译 系 统 可 以 发 现 语言 的 某 些 局 部 的 
规律 ， 也 可 以 试验 某 些 算法 ， 但 显然 是 无 法 付 诸 实用 的 。 为 了 建立 较 


大 规模 的 、 实 用 性 的 机 器 翻译 系统 ， 必 须 作 全 局 性 的 研究 。 这 种 全 局 
性 的 研究 一 般 可 以 分 两 步 来 进行 。 首 和 完 从 原 语 和 译 语 的 总 体 出 发 ， 设 
计 出 一 个 抽象 的 算法 和 在 抽象 数据 上 实施 的 一 系列 抽象 的 操作 ， 建 立 
起 抽象 的 语言 模型 ， 而 不 管 语言 现象 的 各 种 细微 末 市 。 这 种 全 局 性 的 
抽象 语言 模型 的 设计 ， 要 求 尽 可 能 地 全 面 反 映 原 语 和 译 语 的 语言 

貌 ， 因 此 ， 它 应 当 建 立 在 全 面 地 进行 语言 研究 的 基础 之 上 。 在 全 局 性 
的 抽象 语言 模型 建立 之 后 ， 吕 不 难 把 它 分 解 成 若干 相对 独立 的 子 问 
题 ， 进 行 局 部 性 的 研究 。 由 于 各 个 子 问题 只 涉及 局 部 的 环境 和 条 件 ， 
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则 系统 来 。 采 用 这 样 的 方式 建立 的 规则 系统 ， 还 需要 通过 大 量 的 语言 
素材 进行 检验 ， 在 实践 中 不 断 地 丰富 和 充实 ， 使 之 日 趋 完善 。 如 有 果 我 
们 在 机 器 翻译 的 研究 之 初 ， 束 陷入 到 各 种 局 部 性 的 细微 末 市 中 去 ， 淹 
没 在 语言 现象 的 证 详 大 海 之 中 ， 而 不 能 从 全 局 性 的 抽象 语言 模型 的 角 
度 去 观察 问题 ， 等 到 发 现 整 个 系统 在 全 局 上 左 文 右 拙 、 进 退 维 谷 的 时 
候 ， 再 回 过 头 来 搞 全 局 性 研究 ， 那 束 会 造成 人 力 和 财力 的 浪费 ， 甚 至 
导致 整个 机 咒 翻 译 系统 的 报废 。 这 种 情况 ， 在 国内 外 机 需 翻 译 系统 的 
研制 中 不 乏 完 例 ， 我 们 一 定 要 引 以 为 训 。 可 见 ， 如 何 正确 地 处 理 好 全 
局 性 研究 和 局 部 性 研究 的 关系， 把 这 两 方面 的 研究 恰当 地 结合 起 来 ， 
是 进一步 搞 好 我 国 自 然 语 言 处 理 研 究 的 一 个 应 该 注意 的 问题 。 


第 四 ， 应 该 处 理 好 当代 语言 研究 中 的 经 验 主 义 方法 和 理性 主义 方 
法 的 关系 。 


近年 来 ， 国 际 计算 语言 学 越 来 越 注 意 未 经 编辑 的 、 非 受 限 的 大 规 
模 真 实 文 本 的 处 理 ， 语 料 库 语 言 学 在 目 然 语言 处 理 研 究 中 异军突起 ， 
受到 普 志 的 关注 ， 词 库 和 树 库 在 目 然 语 言 处 理 中 的 地 位 越 来 越 重 要 ， 
语言 知识 的 颗粒 度 正 日 趋 精 细 ， 对 语料库 中 的 非 受 限 文本 的 词性 标注 


和 目 动 句法 分 析 已 取得 了 令 人 鼓舞 的 成 绩 。 国 际 计 算 语 言 学 界 把 这 种 
基于 语料库 、 词 库 和 树 库 的 经 验 主 义 方法 确定 为 未 来 一 个 时 期 内 计算 
语言 学 发 展 的 战略 目标 ， 令 人 高 兴 的 是 ， 我 国 在 基于 统计 的 汉语 真实 
文本 自动 分 析 方 面 已 取得 了 突破 性 的 进展 ， 在 语言 知识 库 的 建设 中 取 
得 突出 的 成 绩 。 这 种 经 验 主 义 的 研究 方法 有 助 于 全 面 地 观察 语言 现 
象 ， 克 服 传统 语言 研究 的 局 限 性 和 片面 性 。 但 是 ， 在 采用 这 种 经 验 主 
义 方法 的 同时 ， 我 们 不 能 忽视 理性 主义 的 方法 ， 即 基于 规则 的 目 动 句 
法 一 语义 分 析 方 法 ， 这 种 理性 主义 的 方法 一 般 要 求 对 所 人 研究 的 语言 给 
予 某 种 程度 的 限制 ， 从 而 减少 句法 一 语义 分 析 的 难度 ， 现 在 国内 外 都 
已 经 采用 这 种 理性 主义 的 研究 方法 ， 建 立 了 一 些 实用 的 目 然 语言 处 理 
系统 。 理 性 主义 方法 对 目 然 语言 加 以 的 限制 ， 可 以 分 为 目 然 限制 和 人 
为 限制 两 种 。 目 然 限 制 殉 征 把 人 研究 对 象 局 限于 某 一 特殊 领域 的 子 语 
言 ， 由 于 专业 领域 或 文体 的 限制 ， 多 义 词 的 处 理 和 上 下 文 的 分 析 束 比 
大 规模 真实 文本 容易 得 多 了 。 人 为 限制 束 是 要 求 作者 按 规定 书写 原 
文 ， 对 作者 提出 的 限制 要 简单 、 目 然 ， 不 妨碍 表达 思想 。 采 用 原文 限 
制 ， 可 以 使 目 然 语 言 处 理 达 到 一 定 的 水 平 ， 而 又 不 丧失 全 目 动 的 长 
处 。 因 此 ， 国 内 外 许多 学 者 提出 了 “ 受 限 语言 ”的 概念 。 人 研究 实践 表 
明 ， 采 用 人 为 限制 的 受 限 语言 是 很 难 行 得 通 的 。 这 种 人 为 的 受 限 语 
言 ， 在 词汇 、 语 法 、 甚 至 语义 上 对 语言 加 以 严格 的 人 为 限制 ， 而 这 些 
限制 也 必定 是 一 种 规定 ， 而 规定 实际 上 就 古 一 种 规则 。 人 为 限制 虽然 
其 本 意 十 为 了 减少 卓然 语言 处 理 系统 的 规则 ， 而 限制 的 结果 ， 却 增加 
了 许多 专门 用 于 限制 的 新 规则 ， 这 种 人 为 的 受 限 语 言 是 很 少 有 人 愿意 
使 用 的 。 比 较 可 行 的 办 法 是 采用 目 然 限制 的 受 限 语言 ， 也 就 古 把 目 然 
语言 处 理 系统 限制 在 一 定 的 子 语言 范围 内 。 实 际 上 ， 除 了 这 种 由 于 专 
业 的 特点 而 形成 的 子 语言 之 外 ， 还 存在 着 大 量 的 、 非 人 为 的 、 以 目 然 
状态 存在 的 受 限 语 言 。 例 如 ， 科 技术 语 束 是 这 样 的 非 人 为 的 受 限 语 
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上 态 ， 它 们 之 所 以 成 为 受 限 语言 ， 并 不 是 人 为 地 形成 的 ， 而 是 由 于 它们 
本 身 的 特点 目 然 地 形成 的 。 这 样 的 受 限 语言 ， 其 词汇 、 语 法 、 语 义 的 
结构 关系 都 受 着 全 民 共 同 语 的 制约 ， 反 映 了 全 民 共 同 语 的 性 质 。 汉 语 
的 科技 术语 ， 特 别 是 词组 型 科技 术语 ， 也 有 句法 结构 和 语义 结构 。 我 
们 研究 发 现 ， 它 们 的 这 些 结构 与 汉语 的 句子 结构 存在 着 同 构 关系 。 
此 ， 只 要 把 这 些 词组 型 术语 的 结构 弄 清楚 了 ， 汉 语 的 句子 结构 也 束 容 
易 弄 清楚 了 “。 中 文科 技术 语 的 句法 一 语义 分 析 ， 也 许可 能 成 为 汉语 名 
子 的 句法 一 语义 分 析 的 突破 口 。 这 是 汉语 术语 的 特点 给 我 们 这 来 的 有 
利 条 件 。 对 这 种 受 限 语言 的 研究 ， 应 该 是 我 国 目 然 语言 处 理 研究 的 一 
项 基础 性 工作 。 由 此 观 之 ， 在 我 们 把 经 验 主 义 方 法 作为 当前 计算 语言 
学 发 展 的 战略 目标 的 同时 ， 我 们 也 不 能 忽视 理性 主义 的 方法 ， 我 们 应 
该 把 二 者 结合 起 来 。 目 然 语言 的 计算 机 处 理 ， 需 要 丰富 多 采 、 形 形 色 
色 的 各 种 知识 的 支持 ， 既 需要 通过 经 验 主义 方法 获得 的 颗粒 度 很 细 的 
知识 ， 也 要 需 通 过 理性 主义 方法 获得 的 颗粒 度 较 粗 的 知识 。 束 是 在 大 
规模 真实 文本 的 目 动 标注 中 ， 我 们 也 有 必要 把 经 验 主 义 的 语料库 方法 
和 理性 主义 的 规则 方法 结合 起 来 ， 让 这 两 种 方法 相互 补充 ， 取 长 补 
短 ， 相 得 益 袁 。 人 研 究 实 践 证 明 ， 在 基于 经 验 主 义 方 法 的 统计 机 天 翻译 
系统 中 ， 辅 之 以 理性 主义 的 规则 方法 ， 可 以 提高 统计 机 器 翻译 的 质 


里 ” 


第 五 ， 应 当 加 强 语言 规范 化 和 标准 化 的 研究 ， 处 理 好 语言 的 规范 
化 和 标准 化 与 计算 机 软件 的 规范 化 和 标准 化 的 关系 。 


已 故 闭 名 科学 家 钱学森 先生 曾经 在 《中 文 信息 》1994 年 第 2 期 上 发 
表 了 《电子 计算 机 软件 与 新 时 期 的 语言 文字 工作 》 一 文 。 他 指出 ， 电 
子 计算 机 对 当代 文化 建设 有 着 重大 的 影响 ， 它 同 过 去 人 类 历史 上 语言 
的 出 现 、 文 字 的 出 现 、 造 纸 技术 的 出 现 、 印 刷 技 术 的 出 现 一 样 ， 是 人 


类 文化 史上 的 大 事 。 西 方 世 界 在 20 世 纪 60 年 代 初 曾 产生 过 “软件 危 
机 ”， 我 们 应 该 引 以 为 训 。 目 前 ， 电 子 计算 机 技术 正 疝 更 高 的 层次 迈 
进 ， 回 智能 化 发 展 ， 在 这 种 情况 下 ， 如 采 我 国 的 计算 机 语言 和 软件 设 
计 各 搞 一 套 ， 没 有 统一 的 规划 ， 计 算 机 语言 爱 杂 多样， 各 不 相 诬 ， 等 
到 “软件 危机 ”爆发 才 着 手 挽救 ， 就 会 给 国家 造成 难以 们 计 的 损失 。 在 
经 济 上 的 损失 ， 殊 不 是 几 亿 、 几 十 亿 元 的 问题 了 ， 还 会 耽误 我 国 的 社 
会 主义 建设 。 因 此 ， 钱 学 森 主张 从 现在 起 就 应 该 着 手 进行 电子 计算 机 
技术 和 软件 开发 及 其 规范 化 、 标 准 化 的 宏观 筹划 。 我 国 系统 工程 学 家 
汪 成 为 曾经 在 1986 年 所 出 “电子 计算 机 也 征 语言 文字 工作 ”的 论点 ， 钱 
学 森 非 常 赞 同 这 一 论点 ， 他 认为 ， 电 子 计算 机 技术 和 软件 的 规范 化 、 
标准 化 与 语言 文字 工作 的 联系 最 为 密切 ， 我 们 应 该 把 这 个 问题 作为 社 
会 主义 文化 的 大 问题 来 抓 ， 把 我 国电 子 计 算 机 技术 的 发 展 和 国家 的 语 
言 文字 工作 结合 起 来 ， 面 问 现 代 化 ， 面 问世 界 ， 面 问 未 来 ， 为 祖国 的 
建设 和 发 展 作出 页 献 。 


钱学森 对 电子 计算 机 软件 与 新 时 期 语言 文字 工作 之 间 的 关系 的 深 
刻 论述 ， 对 于 自然 语言 处 理 研 究 也 同样 有 着 指导 意义 。 


目 然 语言 处 理 中 ， 不 论 是 机 器 翻译 、 上 自然 语言 理解 、 信 息 自 动 检 
索 、 信 息 自 动 抽取 、 文 本 数据 挖掘 、 术 语 数据 库 、 语 音 的 自动 识别 与 
合成 、 汉 字 的 自动 识别 ， 都 牵涉 到 语言 文字 的 规范 化 和 标准 化 问题 。 
例如 ， 为 了 提高 普通 话语 音 识 别 和 语音 合成 的 研究 水 平 ， 有 必要 建立 
普通 话语 音 库 和 语音 特征 库 ， 探 讨 汉 语 语音 的 特征 ， 为 此 ， 必 须 做 好 
普通 话语 音 的 规范 化 工作 。 语 音 的 差别 不 仅 存 在 于 普通 话 和 方言 之 
间 ， 而 且 也 存在 于 普通 话 的 内 部 ， 为 了 解决 普通 话 内 部 读音 的 分 收回 
题 ， 普 通话 审 音 委员 会 兽 于 1957 年 到 1962 年 三 次 发 表 了 《普通 话 异 读 
词 审 普 表 初稿 》， 于 1963 年 辑录 成 《普通 话 三 次 审 首 表 初稿 》，1985 


年 义 公 布 了 《普通 话 异 读 词 审 音 表 》， 这 些 文件 对 于 普通 话 的 语音 规 
范 都 起 了 积极 作用 。 汉 语 语音 识别 与 语音 合成 的 研究 ， 应 该 以 普通 话 
的 标准 读音 为 准 。 但 是 ， 在 我 国 一 些 权 威 性 的 词典 和 字典 中 ， 注 音 分 
层 还 不 小 ， 与 《 审 音 表 》 也 不 尽 相 同 。 如 "“ 复 ”，《 现 代 汉 语词 典 》 注 
fEzuan3, KFIS) iEfEzuana, (HERY NEMI, CHE, ONU 
DB) TEFshi4, (RFE) TE(Fzhel, X XEshid, (HER) JE 
shi4 作 文 读 ，zhel 作 日 读 ，《 现 代 汉 语词 典 》 与 《 审 音 表 》 不 一 致 。 
这 些 分 卜 ， 使 得 语音 识别 和 合成 的 研究 者 无 所 适 从 ， 在 这 种 情况 下 ， 

他 们 建立 的 普通 话语 首 库 和 语音 特征 库 等 软件 束 很 难 是 标准 化 和 规范 
化 的 。 男 外 ， 搞 计算 机 的 人 在 研究 工作 中 遇 到 读音 问题 时 ， 一 般 忌 是 
直接 地 查 词典 或 字典 ， 不 大 会 去 查 《 审 首 表 》。 词 典 和 字典 的 注音 分 
歧 ， 对 目 然 语言 处 理 的 软件 研究 工作 十 分 不 利 。 我 们 建议 普通 话 审 音 
委员 会 应 多 吸收 出 版 界 的 人 员 参 加 ， 多 与 出 版 部 门 通气 ， 使 得 审 首 的 
成 有 果 ， 人 能够 迅速 地 在 词典 和 字典 中 反映 出 来 ， 以 便于 从 事 目 然 语言 处 
理 和 软件 开发 的 人 员 使 用 。 


机 器 翻译 、 目 然 语言 理解 中 要 使 用 形 仿 词 典 、 结 构 词 典 和 语义 词 
典 ， 词 典 的 研制 是 机 器 翻译 和 自然 语言 理解 的 一 个 基本 项 目 ， 因 为 在 
机 器 翻译 和 目 然 语言 理解 中 所 需要 的 各 种 静 仿 信息 以 及 一 部 分 动态 信 
思 ， 都 要 通过 词典 来 提供 。 


机 读 汉语 词典 的 研制 ， 与 普通 话 的 词汇 规范 有 着 密切 和 关系。 普通 
话 规 定 以 北方 方言 为 基础 方言 ， 主 要 是 指 普通 话 词汇 应 以 北方 方言 的 
词汇 作为 基础 ， 但 北方 方言 词汇 内 部 的 情况 十 分 复 杀 ， 哪 些 词 可 以 纳 
入 普通 话 ， 哪 些 词 不 能 纳入 普通 话 ， 痢 需要 经 过 透彻 的 调查 研究 才 有 
可 能 决定 。 比 如 “太阳 ”这 个 词 ， 仪 在 北方 方言 区 的 河北 省 ， 就 有 “日 
Xo BAA > BARI» BAIL» 555)Lo 848 > AG > BAB > PH 


JL > 前 天 爷 、 佛 分 儿 、 老 佛爷 、 火 神 爷 、 太 阳 帝 儿 、 日 头 帝 儿 * 等 多 种 
说 法 ， 需 要 进行 筛选 。 这 是 同 实 异 名 的 问题 。 另 外 ， 还 有 同名 异 实 的 
问题 。 比 如 ， 在 河北 省 内 ，“ 山 药 * 这 个 词 的 含义 因 地 而 异 ， 在 石家庄 
指 “ 红 莫 "， 在 张家口 指 * 士 豆 "， 普 通话 中 如 何 处 理 这 类 问题 ， 也 需要 
进行 研究 。 目 前 ， 急 需 在 北方 话 词汇 调查 的 基础 上 ， 编 写 一 部 规范 的 
普通 话 通用 词典 ， 使 之 成 为 机 读 汉语 词典 收 词 的 基本 依据 。 


编写 机 读 汉语 词典 的 男 一 个 问题 古 正 词法 问题 。 完 苋 什 么 算是 一 
个 词 ， 什 么 不 能 算 一 个 词 ， 必 须 有 明确 的 规定 才能 收入 机 读 汉语 词 
典 。 现 在 ， 国 家 语言 文字 工作 委员 会 公布 了 《汉语 拼音 正 词法 基本 规 
WI) ， 为 这 个 问题 的 解决 提供 了 依据 。 但 是 ， 与 此 同时 ， 国 家 技术 监 
督 局 又 公布 了 《信息 处 理 用 现代 汉语 分 词 规范 》 ， 并 以 此 作为 国家 标 
准 ， 其 中 有 一 些 规定 与 《汉语 拼音 正 词 法 基本 规则 》 不 一 致 ， 这 将 会 
给 与 机 读 汉语 词典 的 编制 有 关 的 计算 机 软件 工作 人 为 地 造成 一 些 新 的 
困难 。 我 们 认为 ， 信 息 处 理 用 的 分 词 规范 与 正 词法 应 该 统一 起 来 。 否 
则 ， 在 目 然 语言 处 理 的 系统 研制 、 人 员 培 训 、 推 广 应 用 等 方面 ， 都 会 
带 来 许多 不 必要 的 麻烦 。 


机 器 翻译 、 目 然 语言 人 机 接口 、 信 息 目 动 检 索 等 卓然 语言 处 理 系 
统 主要 应 用 于 科技 方面 ， 因 此 ， 在 目 然 语言 处 理 的 研究 中 ， 还 应 该 注 
意 科 技术 语 和 译名 的 规范 化 问题 。 目 前 ， 汉 语 的 科技 术语 使 用 比较 混 
乱 ， 同 实 异 名 的 情况 相当 之 多 。 如 数学 中 的 “公理 : mW" "UD XD 
BR”. “RAR: Ae > “BRR: 偏 序 ”\“ 和 天 量 : 向 量 *”、“ 算 子 : A 
符 ”`\“ 既 约 : 不 可 约 ” 等 ， 同 实 异 名 的 现象 也 不 少 ， 如 计算 机 科学 中 
的 “ 共 行 操作 : 同时 操作 : 并行 操作 ”等 ， 数 学 和 计算 机 都 十 十 分 严格 
的 精密 的 学 科 ， 术 语 的 混乱 尚且 如 此 严重 ， 在 其 他 学 科 中 术语 的 混乱 
情况 ， 也 吏 可 想 而 知 了 。 这 对 于 目 然 语言 处 理 系统 的 软件 开发 是 极为 


不 利 的 。 对 于 同 实 异 名 的 术语 ， 应 该 使 之 逐渐 统一 ， 对 于 同名 异 实 的 
术语 ， 应 该 使 之 逐渐 分 化 ， 尽 量 使 术语 保持 单 义 性 。 


外 国 科 学 家 的 译名 也 相当 混乱 。 例 如 ， 数 学 家 De Morgen 的 译名 
AREER RERA O RRA ROME O BOSE GE. PERE. REEL 
儿 ” 等 ， 这 必然 会 在 目 然 语言 的 计算 机 处 理 系统 中 造成 张冠李戴 的 混乱 
现象 ， 应 该 按照 名 从 主人 和 约定 俗 成 的 原则 ， 以 慎重 的 态度 进行 协调 
Ass 


Dar alt BAS SEL, PREETI TE, Te Cot 
和 生成 ， 上 下 文 分 析 和 生成 ， 这 些 都 需要 对 普通 话 的 语法 和 语义 进行 
深入 的 研究 ， 并 使 之 形式 化 。 


Bia a Pe ES MR, DOS IZ AE HA 
歧义 现象 更 为 突出 。 这 样 的 歧义 现象 ， 是 汉语 分 析 和 生成 中 应 该 给 
寺 别 注意 的 。 例 如 ,“ 淹 苹果 的 刀 ” 和 “前 荚果 的 皮 ”， 其 结构 都 是 “V + 
N + 的 + N”"， 但 其 层次 很 不 相同 。 这 种 结构 歧义 现象 在 汉语 中 比比 省 
是， 我 们 在 第 五 章 中 已 经 作 了 详细 的 分 析 ， 在 研制 汉语 的 目 然 语言 处 
理 系统 时 ， 这 些 歧 义 问题 应 该 着 重地 加 以 解决 。 我 国学 者 在 对 汉语 牙 
义 结构 的 分 析 人 研究 中 ， 已 经 提出 了 一 些 有 效 的 理论 和 方法 。 进 一 步 深 
入 研究 汉语 的 长 义 问题 ， 是 汉语 的 目 然 语 言 处 理 中 的 一 个 关键 性 问 


题 。 


同时 ， 我 们 应 该 看 到 ， 目 前 在 汉语 中 还 有 一 些 语法 结构 并 不 是 由 
目 然 语 言 本 映 固 有 的 歧义 造成 的 ， 而 是 由 于 规范 化 不 够 而 造成 的 。 例 
如 , “摄氏 20 度 以 上 ”， 有 人 理解 为 包括 20 度 在 内 ， 有 人 认为 不 能 包括 
20 度 在 内 ， 人 尚且 判别 不 了 ， 计 算 机 当然 惑 更 难 判别 了 ; “人 发霉 的 林子 
竟 占 了 半 成 以 上 ”， 有 人 把 * 半 成 ?理解 为 二 分 之 一 ， 有 人 却 认为 既 


OS er ee ee ae a ee 
是 ; “PRG KORE awe”, BGR BRAS 
加 两 倍 ， 有 人 理解 为 增加 三 倍 〈 翻 一 番 为 两 倍 ， 在 原 有 基础 上 再 翻 一 
番 为 三 倍 ) ， 有 人 则 理解 为 增加 四 倍 〈 翻 一 番 为 两 倍 ， 在 两 倍 的 基础 
上 再 翻 一 番 为 四 倍 ) ,“ 还 欠 款 4 000 元 ”， 有 人 把 < 还” 读 为 huan2， 理 解 
为 已 经 赔 还 了 欠 款 4 000 元 ， 有 人 把 “还 ” 读 为 hai2， 理 解 为 仍然 欠 款 4 
000 元 ， 仁 者 见 仁 ， 知 者 见 智 ， 由 此 而 引起 经 济 工作 的 许多 麻烦 。 这 些 
歧义 问题 ， 都 需要 由 有 关 部 门 做 出 明确 的 规定 ， 才 可 以 在 自然 语言 处 
理 中 避免 误解 。 汉 语 的 否定 用 法 也 比较 混乱 ， 有 许多 肯定 形式 与 否定 
形式 的 含义 都 相同 的 句 式 。 例 如 , “难免 要 犯错 误 ” 和 “难免 不 犯错 
误 ” 的 含义 相同 , “除非 他 来 ， 我 就 去 ”和 "除非 他 来 ， 我 不 去 ”的 含义 相 
同 。 在 自然 语言 处 理 中 , “否定 ”的 逻辑 含义 与 “肯定 ”的 逻辑 含义 是 完 
全 相反 的 ， 如 果 否 定之 后 的 含义 与 肯定 一 样 ， 将 会 给 计算 机 的 理解 带 
来 极 大 的 困难 。 我 们 希望 有 关 部 门 ， 对 于 这 些 不 清晰 的 、 有 分 歧 的 用 
法 ， 根 据 语言 发 展 规律 ， 选 择 其 中 的 一 种 作为 规范 ， 废 除 不 规范 的 用 
法 。 


由 此 可 见 ， 加 强 语言 文字 的 规范 化 和 标准 化 ， 对 于 进一步 搞 好 目 
然 语 言 的 计算 机 处 理 ， 具 有 极其 重要 的 作用 和 深远 的 意义 ， 计 算 机 软 
件 工 作 实际 上 也 是 语言 文字 工作 ， 我 们 应 该 有 战略 的 眼光 ， 大 力 纠正 
语言 文字 应 用 中 的 刘 乱 现象 ， 努 力促 进 语言 文字 的 规范 化 和 标准 化 。 


同 过 去 的 研究 结果 相 比 ， 我 国 的 目 然 语言 处 理 研 究 确 实 已 经 取得 
了 很 大 的 成 绩 ， 已 经 研制 出 一 些 实用 性 的 目 然 语言 处 理 系 统 ， 一 些 研 
守成 果 ， 已 经 走出 国门 ， 在 世界 上 获得 了 较 好 的 评价 ， 但 是 不 得 不 承 
认 ， 同 国际 目 然 语 言 处 理发 展 的 水 乎 相 比 ， 还 有 很 大 的 关 距 ， 我 们 不 
论 在 基础 理论 的 研究 上 还 是 在 实际 应 用 的 研究 上 ， 都 相当 落后 。 面 对 


这 样 的 状况 ， 我 们 应 该 有 紧迫 感 ， 要 面 问 世界 ， 更 大 地 敞开 国门 ， 加 
速 我 国 自 然 语言 处 理 研究 的 世界 化 过 程 。 


现在 ， 互 联网 的 使 用 越 来 越 广泛 , “上 机 上 网 ”已 经 成 为 普通 人 的 
寻 闸 事情。 互联 网 上 的 信息 多 种 多 样 ， 有 语言 文字 信息 ， 也 有 图 形 图 
像 信 息 ， 还 有 首 乐 信息 ， 但 主要 还 是 语言 文字 信息 ， 也 整 是 说 ， 网 络 
世界 主要 是 由 语言 文字 构成 的 。 


为 了 说 明 目 然 语言 处 理 的 重要 性 ， 我 们 把 它 与 物理 学 做 如 下 的 类 
E: 我 们 说 物理 学 之 所 以 重要 ， 是 因为 物质 世界 苹 由 物质 构成 的 ， 而 
物理 学 恰恰 是 研究 物质 运动 的 学 科 ; 我 们 说 目 然 语言 处 理 之 所 以 重 
要 ， 是 因为 网 络 世 界 主 要 是 由 语言 文字 构成 的 ， 而 目 然 语言 处 理 恰恰 
古人 研究 语言 文字 目 动 处 理 的 学 科 。 


可 以 预见 ， 知 识 的 日 新 月 异 和 网 络 技术 的 突飞猛进 ， 一 定 会 把 目 
然 语 言 处 理 的 研究 推 同 一 个 新 新 的 阶段 。 目 然 语言 处 理 有 可 能 成 为 当 
代 语 言 学 中 最 有 发 展 潜力 的 领域 ， 给 有 着 悠久 传统 的 古老 的 语言 学 注 
入 新 的 生命 力 ， 在 它 的 推动 站， 语言 学 有 可 能 真正 成 为 当代 科学 百花 
园 中 的 一 门 领 移 学 科 。 


冯 志 伟 于 杭州 下 沙 
2012 年 7 月 
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My love to linguistic research 
汉 志 伟 


我 是 一 名 普通 的 语言 学 研究 者 ，《 当 代 外 语 人 研究 》 主 编 杨 枫 老 师 
要 我 写 一 篇 文章 介绍 目 己 的 治学 经 验 ， 我 很 愿意 与 广大 读者 交流 目 己 
学 习 和 人 研 完 语言 学 的 心得 ， 因 此 融 欣 然 同意 了 “。 在 这 里 ， 我 想 讲 一 讲 
目 己 弃 理 学 文 、 弃 文 从 理 ， 最 后 义 弃 理 从 文 的 曲折 过 程 ， 谈 一 谈 50 多 
年 来 目 己 与 语言 学 之 间 割 售 不 断 的 缘分 。 


1. 弃 理 学 文 


我 于 1939 年 4 月 15 日 出 生 于 云南 昆明 。1946 年 考 入 昆明 市 长 春 路 东 
升 小 学 读书 ，1951 年 以 全 昆明 市 会 考 第 一 名 的 好 成 绩 考 入 昆明 一 中 怠 
读 。 昆 明 一 中 是 云南 省 著名 的 重点 学 校 ， 曾 培育 了 无 数 的 英才 。 获 诺 
奖 的 著名 物理 学 家 杨振宁 、 竺 名 哲学 家 艾 思 奇 、 若 名 出 版 家 黄 洛 
等 等 ， 都 曾经 是 这 个 学 校 的 学 生 。 入 学 后 ， 我 下 决心 追赶 这 些 曾经 
全 昆明 一 中 带 来 声誉 的 前 蕴 老 校友 ， 努 力 地 学 习 ， 从 初 一 到 高 三 ， 我 
每 年 的 总 平均 分 都 名 列 全 校 第 一 ， 成 为 了 昆明 一 中 的 好 学 生 。 
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1957 年 高 中 毕业 时 ， 我 以 云南 省 理科 第 一 名 的 成 绩 考 入 北京 大 学 
地 球 化 学 专业 本 科 束 读 ， 一 心 想 研究 化 学 元 聚 在 地 球 上 的 分 布 规律 。 
当时 我 的 兴趣 主要 是 在 黎 有 元 素 上 ， 它 们 在 元 系 周 期 表 上 有 是 排 在 比较 
后 的 元 素 ， 是 国家 很 需要 的 目 然 资源 。 我 非常 热爱 地 球 化 学 专业 ， 当 
时 也 没有 任何 从 事 其 他 学 科 的 想法 ， 这 个 学 科 确 实 也 很 有 意思 。 地 球 
化 学 在 上 世纪 50 年 代 属于 国家 要 重点 发 展 的 尖端 学 科 之 一 ， 在 地 球 科 
学 里 面 ， 地 球 化 学 也 是 属于 最 先进 的 学 科 。 


我 在 入 学 后 曾经 对 五 光 十 色 的 矿物 发 生 了 浓厚 的 兴趣 ， 人 研究 这 些 
矿物 的 晶体 结构 ， 如 醇 如 痢 地 观察 着 不 同 结晶 形状 的 各 种 矿物 ， 六 方 
BRE ` FT ah RA ae. 这 些 立 体 结构 不 同 的 矿物 有 着 
短 异 很 大 的 物理 和 化 学 性 质 。 我 深 深 地 被 大 目 然 的 奥秘 吸引 住 了 。 


忠 在 我 认真 学 习 地 球 化 学 的 前 后 ， 国 外 兴起 了 数理 语言 学 ， 建 立 
起 了 完善 的 理论 和 方法 ， 一 些 大 学 中 开设 了 数理 语言 学 的 课程 ， 
语言 学 作为 一 个 独立 的 学 科 出 现在 现代 语言 学 的 百花 园 中 ， 日 益 分 
灿烂 。 


1956 年 ， 我 国 开始 注意 到 国外 数理 语言 学 的 兴起 和 发 展 ， 在 我 国 
科学 人 研究 的 发 展 规划 中 ， 确 立 了 名 称 叫 做 “机 器 翻译 ， 目 然 语言 翻译 规 
则 的 建立 和 目 然 语 言 的 数学 理论 ”的 课题 。 这 个 课题 包括 两 部 分 : 一 部 
分 是 机 器 翻译 ， 男 一 部 分 是 目 然 语言 的 数学 理论 ， 也 就 是 今天 我 们 所 
说 的 “数理 语言 学 ” (mathematical linguistics) 


一 个 偶然 的 机 会 使 我 了 解 到 数理 语言 学 这 个 新 兴 的 语言 学 科 。 


1957 年 冬天 ， 我 在 北京 大 学 图 书馆 馆藏 的 1956 年 出 版 的 美国 《 信 
息 论 》 (RE Transaction, Information Theory ) 杂志 上 ， 无 意 中 看 到 了 
美国 语言 学 家 乔 姆 斯 基 (N. Chomsky) 的 论文 《语言 描写 的 三 个 模 
型 》 (Three models for the description of language ) 这 篇 文章 ， 被 乔 姆 
斯 基 在 语言 研究 中 的 新 思想 深 深 地 吸引 了 。 乔 姆 斯 基 妃 求 语言 描写 的 
简单 性 原则 ， 为 了 使 用 有 限 的 手段 描述 变化 无 穷 的 目 然 语言 ， 在 他 的 
文章 中 ， 建 立 了 形式 语言 和 形式 文法 的 新 概念 ， 他 把 自然 语言 和 计算 
机 程序 设计 语言 置 于 相同 的 平面 上 ， 用 统一 数学 方法 进行 解释 和 和 定 
义 ， 提 出 了 语言 描写 的 三 个 模型 。 用 数学 方法 描写 的 这 三 个 模型 是 这 
样 地 抽象 ， 它 们 既 可 以 用 于 描写 自然 语言 ， 又 可 以 描写 计算 机 程序 设 
计 语 言 ， 达 到 了 “有 限 手段 的 无 限 运 用 ”的 目标 。 


我 预感 到 这 种 语言 的 数学 描写 方法 ， 将 会 把 目 然 语 言 和 程序 设计 
语言 紧密 地 结合 起 来 ， 在 信息 的 处 理 和 人 研究 中 发 挥 出 巨大 的 威力 。 乔 
姆 斯 基 当 时 未 满 30 多 ， 还 是 一 个 名 不 见 经 传 的 青年 语言 学 家 ， 但 是 他 
NXE PAAR eA SADC, BES AA CN EAR T ° 


经 过 反复 考虑 ， 我 下 决心 来 研究 数学 方法 在 语言 中 的 应 用 这 个 问 
题 ， 并 经 学 校 同 意 ， 我 弃 理 学 文 ， 从 理科 转 到 中 文系 语言 学 专业 从 事 


语言 学 的 学 习 。 
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转 入 语言 学 专业 之 后 ， 情 况 并 不 像 我 原来 预想 的 那样 顺利 。 


当时 的 中 文系 语言 学 专业 要 求学 生 学 习 大 量 的 传统 语言 学 课程 ， 
如 “汉语 史 ”、\“ 文 字 学 ”\“ 音 韵 学 ”\“ 训 话 学 等， 根本 没有 开设 任何 
与 数理 语言 学 有 关系 的 课程 ， 而 我 的 志 疝 是 用 数学 方法 研究 语言 ， 与 
学 校 的 课程 安排 有 很 大 的 出 入 。 因 此 ， 我 一 面 要 学 习 这 些 传统 语言 学 
的 课程 ， 一面 还 要 利用 课余 时 间 ， 继 续 人 研究 我 有 兴趣 的 数理 语言 学 问 
题 ， 我 需要 同时 在 两 条 战线 上 作战 ， 感 到 时 间 很 不 够 用 。 我 终日 埋头 
读书 ， 不 怎么 关心 政治 。 尽 管 我 努力 学 习 学 校规 定 的 这 些 传统 语言 学 
课程 ， 成 绩 总 是 名 列 前 茅 ， 而 且 还 学 会 了 41] 外 语 ， 但 是， 同学 们 对 于 
我 这 个 理科 转 过 来 的 学 生 不 理解 ， 有 的 同学 发 现 我 能 够 解 一 些 非常 繁 
难 的 数学 问题 ， 感 到 十 分 奇怪。 他 们 觉得 ， 数 学 这 样 好 的 人 居然 改行 
来 中 文系 学 语言 学 ， 人 简直 是 菲 夷 所 思 ! REHE RERI ° 


1961 年 秋天 ， 团 中 央 机 关 建 立 了 这 样 一 个 制度 ， 团 中 央 书 记 处 的 
每 一 位 书记 至 少 直接 联系 一 个 团 支 部 ， 作 为 了 解 情况 和 结交 青年 朋友 
的 一 个 渠道 。1961 年 11 月 ， 北 京 市 团 市 委 为 团 中 央 第 一 书记 胡 炊 邦 选 
定 北京 大 学 59 级 语言 学 专业 团 支 部 作为 联系 点 。 胡 兆 邦 首先 找 这 个 班 
的 团 支 部 书记 和 宣传 委员 了 解 情况 ， 问 他 们 : “你们 同学 中 有 学 习 特 别 
专心 的 吗 ? ”他 们 回答 介绍 说 : “我 们 班 有 个 同学 叫做 汉 志 伟 的 学 习 特 
别 好 ， 他 已 经 学 了 英语 、 俄 语 、 德 语 和 日 语 ， 而 且 达 到 相当 水 平 ， 但 
是 好 像 不 是 特别 关心 政治 。” 胡 光孝 表示 : “我 希望 找 冯 志 伟 同学 亲自 


谈 一 谈 。” 


团 中 央 第 一 书记 邀请 的 消息 传 给 了 我 ， 我 感到 非常 油 动 。1961 年 
11 月 11 日 ， 北 京 大 学 团委 安排 我 和 其 他 4 名 同学 一 起 到 住 在 富强 胡同 的 
明光 邦 家 做 客 。 晚 饭 后 我 们 乘 公 共 汽 车 进 城 ， 当 时 北京 的 公交 车 数量 
严重 不 足 ， 乘 车 的 人 很 多 ， 我 们 没有 挤 上 从 正和 园 路 过 北大 开 往 西 直 
门 的 32 路 汽车 ， 和 急中生智 ， 干 脆 从 北大 乘 车 到 起 点 站 粘 和 园 ， 再 从 颐 
和 园 乘 车 直径 北京 市 内 ， 当 我 们 赶 到 富强 胡同 时 已 经 是 晚上 9 点 多 钟 
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次 询问 我 们 每 个 人 的 姓名 、 籍 贯 。 


当 胡 次 邦 问 到 我 的 时 候 ， 他 说 :“ 你 束 古 那个 学 了 4 种 外 国语 的 同 
学 光志 伟 吗 ? 你 学 习 那 么 努力 ， 挨 批 了 没有 ? ” 


我 回答 说 : “其 实 我 学 习 只 是 出 于 对 语言 学 的 兴趣 ， 目 己 只 是 想 多 
学 点 东西 而 已 。” 


当时 的 社会 风气 不 主张 学 生 学 习 外 语 ， 认 为 那 是 “和 渤 洋 媚外 ”*"， 胡 
糠 邦 洞察 秋 过 ， 所 以 才 一 见面 吏 关 切 地 问 我 换 批 了 没有 。 


我 坦率 地 回 胡 糠 邦 汇报 了 目 己 的 想法 ， 讲 述 了 目 己 学 习 数 理 语言 
学 的 动机 和 过 程 。 
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我 原 是 昆明 一 中 的 学 生 ，1957 年 考 入 北京 大 学 地 球 化 学 专业 学 
习 ， 比 同班 同学 早 两 年 进入 北大 。1958 年 ， 我 在 一 本 英文 的 信息 论 杂 
志 上 ， 读 到 了 一 篇 关于 运用 数学 方法 赋 完 语言 的 文章 ， 顿 时 灵感 火花 
四 溅 ， 觉 得 这 样 的 研究 有 可 能 为 语言 在 计算 机 上 的 处 理 产 生 半 命 性 的 


影响 。 我 想 ， 我 的 数学 基础 很 好 ， 何 不 投身 到 这 个 领域 做 进一步 的 探 
R? 于 是 ， 我 要 求 转 到 语言 学 专业 学 习 ， 在 学 校 的 文 持 下 ， 我 在 1959 
年 转 入 语言 学 专业 ， 一 面 学 习 语言 学 课程 ， 一 面 学 习 数 学 ， 同 时 关注 
国际 上 运用 数学 方法 研究 语言 问题 的 最 新 进展 ， 当 时 ， 国 际 上 把 这 样 
的 研究 叫做 “数理 语言 学 *”。 我 对 于 外 语 的 领 恒 比较 灵敏 ， 到 1961 年 瓜 
的 时 候 ， 已 经 学 会 了 4 门 外 语 ， 而 且 能 够 使 用 这 4 种 外 语 阅读 数理 语言 
学 的 外 文 文献 了 。 由 于 我 对 于 数理 语言 学 有 强烈 的 兴趣 ， 数 理 语言 学 
是 交叉 学 科 ， 我 除了 学 好 语言 学 的 课程 之 外 ， 还 要 自学 数学 和 外 语 等 
不 同 的 学 科 ， 时 间 比 别 的 同学 紧 ， 没 有 很 多 的 时 间 来 关心 政 治 。 而 当 
时 学 校 的 政治 气氛 特别 浓 ， 不 太 主 张 学 生 读书 ， 我 显得 有 些 古 怪 : UB 
明 是 学 中 文 的 文科 学 生 ， 一 有 空 就 做 些 数学 题 ， 还 经 常 读 点 外 文书 ， 
这 在 当时 是 很 不 合 招 的 。 所 以 ， 有 的 同学 认为 我 是 在 走 “ 只 专 不 红 ” 的 
道路 ， 对 我 顾 有 微 词 ， 有 的 同学 还 说 我 是 “孔子 学 生 继承 牛顿 事业 ”， 
认为 我 的 学 习 方 同 特别 怪异 。 尽 管 我 目 己 还 没有 受到 批判 ， 但 是 ， 思 
想 压 力 很 大 ， 心 里 不 大 痛快 。 


胡 粮 邦 帝 着 关注 的 神色 耐心 地 听 了 我 的 这 些 介 绍 之 后 ， 正 色 地 对 
Rin: “事实 将 证 明 你 的 道路 是 正确 的 ! "RUBUISEDEDEREA. DUX 
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胡 炮 邦 还 严肃 地 回 过 头 来 对 我 们 大 家 说 : “外 语 学 习 是 很 重要 的 ， 
我 们 需要 对 外 交流 ， 语 言 是 很 好 的 交流 工具 呀 ， 懂 了 外 语 可 以 扩大 眼 
界 。” 我 们 专心 地 聆听 着 ， 上 默默 地 思考 着 ， 会 客室 的 气氛 显得 特别 肃 
Be 
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生 的 主要 任务 是 学 习 知 识 。 我 在 高 中 的 孩子 写 了 篇 作文 ， 老 师 出 题目 
说 什么 是 学 生 的 主要 任务 ? 我 的 孩子 写 道 : 学生 的 主要 任务 是 提高 政 


治水 平 。" 他 笑 着 对 我 们 说 ， 现 在 不 少 人 对 学 生 的 主要 任务 的 认识 不 很 
清楚 ， 其 实 ， 道 理 很 简单 :，“ 学 生 的 主要 任务 是 学 习 。” 


谈话 结束 时 已 经 很 昂 了 。 我 们 告别 了 胡 炊 邦 ， 一 路 谈论 着 他 的 教 
导 ， 总 算 赶 上 了 未 班车 顺利 地 回 到 了 北 各 大 学 。 
从 这 次 谈话 后 ， 我 学 习 数理 语言 学 更 加 理直气壮 了 。 


1964 年 ， 我 考 上 了 北京 大 学 理论 语言 学 专业 的 研究 生 ， 我 的 毕业 
论文 题目 就 古 : 《数学 方法 在 语言 癸 究 中 的 应 用 》， 在 我 国语 言 学 研 
究 中 ， 首 次 系统 地 、 全 面 地 来 研究 数理 语言 学 这 个 新 兴学 科 。 


这 样 ， 我 国 的 数理 语言 学 人 研究 便 首 先 在 北京 大 学 正式 地 开展 起 
来 。 现 在 媒体 报道 ， 北 京 大 学 的 计算 语言 学 研究 是 从 1985 年 开始 ， 愁 
介 与 事实 不 符 ， 我 觉得 似乎 应 当 征 从 1964 年 开始 的 。 


北 乐 大 学 中 文系 的 著名 语言 学 家 王 力 先 生 和 朱德 妃 先 生 都 文 持 我 
的 数理 语言 学 研究 。 


王 力 先 生 曾 对 我 说 : “语言 学 不 是 很 简单 的 学 问 ， 我 们 应 该 像 赵 元 
任 先 生 那 样 ， 首 先 做 一 个 数学 家 、 物 理学 家 、 文 学 家 、 首 乐 家 ， 然 后 
再 做 一 个 合格 的 语言 学 家 。” 


朱德 钻 先 生 曾 对 我 说 ，“ 数 学 和 语言 学 的 研究 都 需要 有 逻辑 抽象 的 
能 力 ， 在 这 一 方面 ， 数 学 和 语言 学 有 共同 性 。” 


北京 大 学 的 这 些 第 一 流 的 学 者 ， 总 是 站 在 科学 的 最 前 治 来 看 待 学 
术 的 发 展 ， 他 们 的 或 励 给 了 我 巨大 的 力量 。 


但 是 这 时 候 发 生 了 一 件 事 情 ， 束 是 1966 年 的 5 月 25 日 ， 第 一 张 乌 列 
主义 的 大 字 报 贴 到 了 北大 饭厅 的 门口 。 我 记得 很 清楚 那 一 天 是 5 月 25 
日 ， 因 为 那 一 天 我 要 去 买 一 本 法 文 词典 ， 当 时 的 《法 汉 词 典 》 编 得 很 
不 好 ， 很 简单 ， 单 词 太 少 了 。 我 学 过 日 文 ， 可 以 阅读 日 文 文献 ， 我 的 
导师 岭 刨 祥 教授 说 : “你 去 买 本 《从 和 词典 》 轧 吧 ! ”， 于 是 ， 我 就 到 
五 道口 的 外 文书 店 买 了 一 本 《从 和 词典 》。 中 午时 分 ， 我 刚刚 在 五 道 
口外 文书 店 芳 边 的 小 饭馆 吃 完 中 饭 回 到 北京 大 学 ， 看 到 学 校 的 大 饭厅 
前 人 头 攒 动 。 我 伸 头 一 看 ， 大 饭厅 前 面 的 墙 上 贴 厦大 字 报 呢 。 上 面 写 
Zi. “GPP > mA IME EET? ”， 言 词 很 激烈 ， 陆 乎 是 北大 的 
校长 ， 绢 佩 云 古 北 大 的 党 委 书 记 ， 她 现在 是 全 国 妇 联 的 领导 ， 他 们 俩 
当时 被 认为 是 北 泵 市 委 的 黑 线 人 物 ， 当 时 北 泵 市 长 绢 真 已 被 揪 出 来 
了 。 我 一 看 到 大 字 报 ， 就 知道 我 正在 准备 管 辩 的 毕业 论文 泡 淘 了 ,一 
场 很 大 的 草 命 束 要 来 临 了 。 


果然 ,过 了 几 天 《人 民 日 报 》 就 发 表 了 社论 说 ,“ 这 是 一 张 马 列 主 
义 的 大 字 报 *”， 一 下 把 火 点 起 来 了 。 北 大 进入 “文化 大 草 命 ”的 混乱 状 
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学 方法 研究 语言 ， 现 在 ， 我 既 不 能 学 理 ， 也 不 能 学 文 ， 我 成 为 了 所 谓 
的 “三 而 学 生 ” 四 ， 随 之 离开 了 北京 大 学 ， 到 云南 边疆 的 一 所 中 学 里 当 
一 名 物理 教员 ， 叉 只 好 弃 文 从 理 了 | 
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在 云南 边疆 当 物 理 教员 的 这 段 时 间 里 ， 我 除了 认 认 真 真 地 教 好 学 
生 ， 努 力 做 好 本 职工 作 外 ， 仍 然 利 用 一 切 业 余 时 间 ， 密 切 地 关 广 看 国 
外 学 术 发 展 的 动 问 。 


数理 语言 学 仍然 像 磁石 一 样 强 烈 地 吸引 着 我 。 在 云南 边疆 那样 财 
塞 的 环境 中 ， 我 设法 利用 业余 时 间 ， 洪 心 研究 数理 语言 学 的 问题 ， 在 
言 忍 不足、 资料 缺乏 的 困难 条 件 下 ， 阅 读 了 我 所 能 搜集 到 的 各 种 关于 
数理 语言 学 的 资料 ， 当 时 我 已 经 掌握 了 英 、 法 、 德 、 俄 、 日 等 5 种 外 国 
语 ， 可 以 阅读 了 散 见 于 各 种 外 文书 刊 中 的 数理 语言 学 文献 ， 紧 跟 世 界 
上 数理 语言 学 发 展 的 步伐 。 束 在 “读书 无 用 论 ? 甚 趾 侍 上 的 时 候 ， 我 总 
结 了 当时 国外 数理 语言 学 的 成 采 ， 于 1975 年 ， 以 昆明 五 中 教师 的 名 
义 ， 写 成 了 《数理 语言 学 人 简介》 的 长 篇 文章 ， 在 重庆 的 一 家 目 然 科学 
杂志 《计算 机 应 用 与 应 用 数学 》 上 发 表 ， 同 国内 计算 机 界 和 数学 界 详 
尽 地 介绍 了 数理 语言 学 的 最 新 情况 ， 这 一 篇 文 草 犹如 空 合 之 足 首 ， 使 
当时 被 文化 大 革命 封 有 了 世界 学 术 进 展 的 中 国学 术 界 了 解 到 国外 信息 
时 代 已 经 到 来 的 最 新 动态 。 我 在 这 篇 文章 中 兴奋 地 告诉 广大 读者 :“ 信 
思 时 代 的 到 来 ， 使 得 语言 学 、 数 学 和 计算 机 科学 结 下 了 不 解 之 绿 ， 语 
言 人 研 究 和 计算 机 技术 已 经 到 了 非 结合 不 可 的 地 步 了 ! ” 


在 云南 边疆 的 中 学 教 物理 学 期 间 ， 我 还 有 机 会 阅读 了 一 些 物理 学 
的 经 典 闭 作 ， 例 如 ， 伽 利 略 的 《关于 两 个 世界 体系 的 对 话 》， 和 牛顿 的 
《 目 然 哲学 之 数学 原理 》 等 。 这 些 经 典 著 作 给 了 我 很 多 局 示 。 


伽利略 认为 ， 人 们 正在 构建 的 理论 体系 是 确实 的 真理 ， 由 于 存在 
过 多 的 因素 和 各 种 各 样 的 事物 ， 现 象 序列 往往 是 对 于 真理 的 某 种 算 
曲 。 所 以 ， 在 科学 研究 中 ， 最 有 意义 的 不 是 去 考虑 现象 ， 而 应 当 去 寻 
求 那 些 看 起 来 确实 能 够 给 予 人 们 深刻 见解 的 原则 。 伽 利 略 告 诚 人 们 ， 
如 条 事实 驳斥 理 论 的 话 ， 那 么 ， 事 实 可 能 是 错误 的 。 伽 利 略 忽视 或 无 


视 那 些 有 悖 于 理论 的 事实 。 伽 利 略 举例 说 ， 人 们 看 到 每 天 太阳 从 东方 
升 起 ， 从 西方 落下 ， 都 误 以 为 太阳 是 围绕 地 球 旋转 的 ， 而 实际 上 却 是 
地 球 围 绕 太 阳 旋 转 。 因 此 ， 现 象 序 列 往往 是 对 于 真理 的 茶 种 焉 曲 ， 科 
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现象 所 迷惑 。 


牛顿 认为 ， 在 他 那个 时 代 的 科学 水 平 下 ， 世 界 本 喘 还 是 不 可 理解 
的 ， 科 学 研究 所 要 做 的 最 好 的 事情 驶 是 努力 构建 可 以 被 理解 的 理论 ， 
牛顿 关注 的 是 理论 的 可 理解 性 ， 而 不 是 世界 本 吴 的 可 理解 性 ， 科 学 理 
论 不 古 为 了 满足 常识 理解 而 构建 的 ， 常 识 和 直觉 不 足以 理解 科学 的 理 
论 。 和 牛顿 握 弃 那些 无 助 于 理论 构建 的 常识 和 直觉 。 


通过 阅读 这 些 博大 精深 的 物理 学 经 典 著作 ， 我 认识 到 ， 在 语言 学 
研究 中 ， 我 们 应 当 探 索 和 发 现 那 些 在 语言 事实 和 现象 后 面 掩 藏 着 本 质 
和 原则 ， 不 要 只 是 总 是 停留 在 现象 的 观察 和 描写 上 ， 语 言 学 研究 的 目 
的 在 于 通过 语言 的 现象 揭示 语言 的 本 质 。 在 这 样 的 思想 的 局 示 之 下 ， 
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为 了 进行 语言 文字 的 信息 处 理 ， 必 须知 道 文字 的 信息 量 ， 因 此 ， 
也 就 必须 测定 文字 的 粹 。 这 是 信息 时 代 语 言 文 字 处 理应 该 研究 的 基础 
性 问题 。 汉 字 的 “ 精 ? 是 汉字 所 舍 信 息 量 大 小 的 数学 度量 ， 征 汉字 的 一 


个 重要 的 本 质 属性 ,一旦 进入 信息 是 时 代 ， 我 国 必定 要 用 计算 机 来 处 
理 汉子 ， 首 先 束 会 过 到 汉字 信息 量 的 问题 。 汉 字 燃 的 研究 可 以 为 汉子 
进入 信息 时 代 做 好 理论 上 的 准备 。 


近 几 十 年 来 ,国外 学 者 已 陆续 测 出 一 些 拼音 文字 字母 中 的 燃 ， 而 
汉字 数量 太 大 ， 各 个 汉字 的 出 现 概率 各 不 相同 ， 因 此 ， 要 计算 包含 在 
一 个 汉字 中 的 精 是 一 个 十 分 复杂 和 和 壹 难 的 问题 。 


为 了 计算 汉字 的 粹 ， 首 先 需 要 统计 汉字 在 文本 中 的 出 现 频 度 ， 由 
于 20 世 纪 70 年 代 我 们 还 没有 机 器 可 读 的 汉语 语料库 ， 哪 怕 小 规模 的 汉 
语 语料库 也 没有 ， 我 是 一 个 中 学 物理 老师 ， 也 没有 计算 机 ， 我 只 得 根 
据 书 面 文本 进行 手工 查 频 ， 请 了 几 个 志同道合 的 朋友 ， 用 手工 帮助 我 
进行 汉子 频 度 的 调查 。 我 给 这 些 朋友 每 个 人 发 了 一 箱 卡 片 ， 请 他 们 帮 
助 统计 在 选 定 样本 资料 中 的 汉字 出 现 的 频 度 ， 并 且 把 这 些 频 度 记录 在 
卡片 上 。 在 朋友 们 的 帮助 下 ， 我 用 了 将 近 10 年 的 时 间 ， 对 数 百 万 字 的 
现代 汉语 文本 (587096) 和 古代 汉语 文本 〈 占 30%) 进行 手工 查 频 ， 
从 小 到 大 地 逐步 扩大 统计 的 规模 ， 建 立 了 6 个 不 同 容 量 的 汉子 频 度 表 ， 
最 后 根据 这 些 不 同 的 汉字 频 度 表 ， 逐 步 地 扩大 汉字 的 容量 ， 终 于 计算 
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研究 不 能 总 是 集 留 在 对 于 语言 表面 现象 的 描述 上 ， 而 应 当 通 过 语言 的 
表面 现象 深入 地 揭示 语言 的 根本 性 的 属性 。 汉 字 燃 值 的 测定 正好 体现 
了 这 样 的 科学 方法 论 原则 : 通过 汉字 频 度 的 手工 统计 出 来 的 数据 来 的 
示 隐 藏 在 这 些 数 据 后 面 的 汉子 的 信息 量 的 大 小 一 一 汉字 的 烂 值 。 


为 了 给 汉子 燃 的 测定 建立 一 个 坚实 的 理论 基础 ， 我 还 提出 了 “汉字 
容量 极限 定律 ”， 我 用 数学 方法 证 明 : 当 统 计 样 本 中 汉字 的 容量 不 大 


时 ， 包 含 在 一 个 汉字 中 的 炉 将 随 厦 汉字 容量 的 增加 而 增加 ， 当 统计 样 
本 中 的 汉字 容量 达到 12 366 字 时 ， 包 含 在 一 个 汉字 中 的 炳 束 不 再 增加 
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TERA ° 1X MR PR 12 366 字 ， 超 出 这 个 极限 值 ， 测 出 的 汉字 的 
烂 再 也 不 会 增加 了 “。 在 “汉字 容量 极限 定律 ?的 基础 上 ， 我 在 包含 12 
370 个 不 同 汉 字 的 统计 样本 的 范围 内 ， 初 步 测 出 了 在 堵 虚 语言 符号 出 现 
概率 差异 的 情况 下 ， 包 含 在 一 个 汉字 中 的 燃 为 9.65 比 特 。 由 此 得 出 结 
论 : 从 汉语 书面 语 忌 体 来 考虑 ， 在 现代 汉语 和 古代 汉语 的 全 部 汉语 书 
HEF, 包含 在 一 个 汉字 中 的 烂 是 9.65 比 竺 。 由 于 我 采用 的 是 手工 得 
频 的 方法 ， 尽 管 工作 十 分 繁重 ， 准 确 性 还 是 难以 得 到 保证 ， 我 一 直 认 
为 ， 我 测定 出 的 汉字 炉 值 只 是 一 种 初步 的 猜测 ， 还 需要 更 加 精密 的 手 
段 来 进一步 检验 这 样 的 猜测 。 


20 世 纪 80 年 代 ， 北 京 航空 学 院 计算 机 系 刘 源 教授 使 用 计算 机 统计 
汉字 的 频 度 ， 并 计算 出 汉字 的 烂 为 9.71 比 竺 。 刘 源 教 授 使 用 计算 机 计 
算 的 结 采 与 我 通过 玫 工 测定 的 结 采 相差 不 大 ， 这 说 明 我 在 70 年 代 对 于 
汉子 灶 的 测定 是 十 分 认真 的 。 


这 项 科学 研究 的 结果 说 明 ， 由 于 汉字 的 烂 大 于 8 比 特 ， 所 以 ， 汉 字 
不 能 使 用 8 比特 的 单字 市 编码 ， 而 要 使 用 16 比 特 的 双 字 节 编 码 。 这 项 研 
究 为 汉字 信息 的 计算 机 处 理 提 供 了 基本 的 数据 ， 对 于 汉字 编码、 汉子 
改革 和 汉语 的 规范 化 都 有 一 定 的 指导 意义 。 


汉字 粹 值 的 测定 还 使 我 更 加 深入 地 理解 了 通过 表面 现象 掏 示 隐藏 
在 现象 后 面 的 本 质 的 科学 研究 方法 。 这 些 都 是 我 认真 地 阅读 伽利略 和 
牛顿 的 物理 学 经 典 闭 作 而 得 到 的 收获 。 


4. 研制 世界 上 第 一 个 汉语 到 多 种 外 语 
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粉碎 四 人 帮 之 后 ， 迎 来 了 科学 的 春天 。 高 等 学 校 开始 招生 。 毛 渗 
东 主 席 生 前 对 于 大 学 招生 做 过 指示 : “大 学 还 是 要 办 的 ”， 但 接着 他 又 
指示 : “我 这 里 主要 说 的 是 理工 科大 学 还 要 办 ”。 毛 译 东 在 他 的 指示 中 
没有 说 文科 大 学 还 要 办 。 这 样 ， 大 学 招生 时 ， 首 先 恢复 的 是 理工 科大 
学 招生 ， 而 文科 没有 招生 。 我 淘 望 着 早日 回 到 科学 人 研究 的 岗位 上 去 ， 
因此 决定 ， 既 然 文科 不 招生 ， 那 环 报 考 理 工科 ， 于 是 ， 我 报考 了 中 国 
科学 技术 大 学 研究 生 院 ， 儿 然 参加 理工 科大 学 的 入 学 考试 。1978 年 ， 
我 通过 了 理科 的 入 学 考试 ， 考 上 了 中 国 科 学 技术 大 学 研究 生 院 ， 成 为 
了 这 所 全 国 一 流 的 理工 科大 学 的 人 研究生。 于 是 ， 我 在 弃 理学 文 20 年 之 
后 ， 义 反 过 来 弃 文学 理 ， 重 新 开始 了 理科 的 学 习 ， 从 云南 边疆 回 到 了 
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在 中 国 科 学 技术 大 学 研究生 院 学 习 期 间 ， 我 很 快 束 在 理工 科 的 灯 
志 上 发 表 论文 。1979 年 ，《 计 算 机 科学 》 洒 志 创 刊 ， 我 束 在 该 杂志 创 
刊 号 上 发 表 了 《形式 语言 理论 》 的 长 篇 论文 ， 用 严格 的 数学 表达 方式 
癌 计算 机 科学 界 说 明 数 理 语言 学 中 的 形式 化 方法 如 何 推 动 了 当代 计算 
机 科学 的 发 展 ， 并 且 指 出 : 在 数理 语言 学 研究 中 发 展 起 来 的 形式 语言 
理论 ， 事 实 上 已 经 成 为 了 当代 计算 机 科学 不 可 缺少 的 一 块 重要 的 理论 
基石 ， 计 算 机 科学 绝 不 可 忽视 形式 语言 理论 。 许 多 人 认为 这 篇 文章 一 
定 是 货 深 的 计算 机 科学 家 写 的 ， 后 来 ， 当 计算 机 界 的 一 些 专家 了 解 
到 ， 这 篇 论文 的 作者 苋 然 是 文章 前 北京 大 学 中 文系 的 一 个 文科 人 研究 生 
的 时 候 ， 感 到 非常 惊讶 。 


不 久 ， 我 被 中 国 科 学 技术 大 学 研究 生 院 选送 到 法 国 格 勒 诡 布 尔 理 
科 医 科大 学 应 用 数学 研究 所 口 (IMAG) 自动 翻译 中 心 (GETA) 学 
习 ， 师 从 当时 国际 计算 语言 学 委员 会 主席 、 法 国 闭 名 数学 家 沃 古 瓦 
(B. Vauquois) 教授 ， 专 门 研究 自动 翻译 和 数理 语言 学 问题 。 


沃 十 瓦 教授 是 国际 计算 语言 学 委员 会 的 创始 人 ， 是 当时 国际 计算 
语言 学 的 领军 人 物 ， 他 领导 的 GETA 在 机 器 翻译 的 理论 和 实践 上 都 做 
出 了 出 色 的 成 绩 ， 我 在 GETA 良 好 的 学 习 环 境 中 ， 可 以 了 解 到 机 器 翻 
译 发 展 的 最 新 情况 ， 可 以 学 习 到 当代 机 器 翻译 最 前 沿 的 技术 。 我 自 幼 
就 喜欢 数学 ， 而 沃 古 瓦 教授 是 数学 家 ， 我 人 一拍即合， 都 深 知 自然 语 
言 的 形式 理论 对 于 构建 机 器 翻译 系统 的 重要 性 。 从 此 ， 我 的 研究 重点 


逐渐 由 数理 语言 学 转 到 了 计算 语言 学 (computational linguistics) 。 


在 法 国 留学 期 间 ， 我 的 主要 工作 是 进行 汉语 与 不 同 外 语 的 机 需 翻 
译 人 研究 。 开 始 时 ， 我 使 用 的 目 然 语言 形式 理论 是 乔 姆 斯 基 的 短语 结构 
语法 (phrase structure grammar) ， 我 试图 使 用 短语 结构 语法 来 进行 汉 
语 的 目 动 分 析 。 


早 在 1957 年 ， 我 束 接 触 到 乔 姆 斯 基 的 形式 语言 理论 ， 对 于 乔 姆 斯 
基 的 理论 是 有 深入 了 解 的 。 乔 姆 斯 基 根 据 形式 语法 的 原理 ， 提 出 了 短 
语 结构 语法 来 作 目 然 语言 形式 描述 的 一 种 手段 ， 这 种 语法 在 目 然 语 言 
处 理 中 得 到 了 广泛 的 使 用 。 国 内 外 的 许多 机 器 翻译 系统 都 采用 乔 姆 斯 
基 的 短语 结构 语法 作为 系统 设计 的 基本 理论 依据 。 根 据 乔 姆 斯 基 的 短 
语 结构 语法 ， 表 示 句 子 结构 的 树 形 图 中 的 每 一 个 结 点 只 有 一 个 相应 的 
标记 ， 结 点 与 标记 之 间 的 这 种 关系 是 一 种 单 值 标记 函数 ， 会 出 现 大 量 
的 玻 义 问题 ， 难 于 区 分 句法 结构 相同 而 语义 结构 不 同 的 汉语 名 于 ， 这 
种 分 析 法 是 短语 结构 语法 在 分 析 汉 语 时 一 个 致命 的 缺点 。 


当时 我 在 法 国 研 制 开 发 机 需 翻 译 系 统 的 实践 中 ， 台 更 加 具体 地 认 
识 到 短语 结构 语 (mono-label function) 的 缺陷 。 这 种 单 值 标记 函数 表 
示 的 语言 特征 是 十 分 有 限 的 ， 因 而 在 机 顺 翻 译 中 进行 汉语 的 目 动 分 析 
PY XA © 


有 一 天 ， 沃 古 瓦 教授 和 我 讨论 汉语 目 动 分 析 的 问题 。 我 坦率 地 回 
TR LAGS: “ 乔 姆 斯 基 的 短语 结构 语法 对 于 法 语 和 英语 的 分 析 可 能 
没有 多 大 问题 ， 可 和 是， 用 这 种 语法 来 分 析 汉 语 ， 几 乎 寸步 难 行 。” 


沃 古 瓦 教授 用 好 奇 的 目光 看 着 我 ， 他 硕 望 我 进一步 曾 述 目 己 的 看 
法 。 于 是 ， 我 举例 对 沃 古 瓦 教授 作 了 如 下 的 说 明 : 


在 汉语 中 可 以 说 “点 心 吃 了 ”， 实 际 上 是 “点 心 被 吃 了 ”， 但 汉语 一 
般 不 用 “被 * 字 ;汉语 中 还 可 以 说 “ 张 三 吃 了 ”， 实 际 上 是 “ 张 三 把 点 心 吃 
了 ”。“ 张 二 ”是 个 名 词 短 语 NP (Noun Phrase) , “点 心 ” 也 是 个 NP, “IZ 
了 ”是 个 动词 短语 VP (Verb Phrase) ， 这 两 个 句子 的 规则 都 是 : 
S>NP+VP, HHI, S (Sentence) 表示 句子 ， 它 们 的 层次 相同 ， 词 序 
相同 ， 词 性 也 相同 ， 但 它们 却 有 截然 不 同 的 舍 义 ， 一 个 是 被 动 句 ， 一 
个 是 主动 句 。 我 们 怎么 来 解释 这 样 的 差异 呢 ? 如 果 我 们 使 用 短语 结构 
语法 ， 用 计算 机 来 分 析 这 两 个 不 同 的 句子 ， 计 算 机 最 后 做 出 来 的 肯定 
是 一 样 的 树 形 图 ， 它 们 的 差别 只 是 在 叶子 结 点 上 的 词 不 一 样 ， 整 个 树 
形 图 的 上 层 都 是 同样 的 S~NP+VP， 这 样 在 结构 上 相同 的 句子 为 什么 
会 有 不 同 的 语义 解释 ， 从 而 产生 不 同 的 含义 ? 使 用 短语 结构 语法 显然 
是 解释 不 了 的 ， 而 中 文 里 到 处 都 是 这 样 的 句子 ， 因 为 中 文 里 的 被 动 天 
系 有 不 同 的 表示 方法 ， 有 时 主动 和 被 动 在 形式 上 没有 明显 的 区 别 ， 可 
以 从 句子 的 上 下 文 和 意念 上 来 加 以 区 分 。 在 这 种 进退 两 难 的 局 面 下 ， 
唯一 的 出 路 就 是 根据 汉语 语法 的 特点 来 改进 乔 姆 斯 基 的 短语 结构 语 
法 ， 设 法 使 用 一 种 新 的 方法 来 描述 汉语 。 


沃 古 瓦 教授 耐心 地 听 完 了 我 的 说 明 ， 他 从 沙发 上 站 起 来 惊叹 地 
说 : “汉语 真是 一 种 langueterrible (法 语 : 糟糕 的 语言 ) 。” 他 说 : “ 哪 
种 语言 能 够 不 分 主动 和 被 动 ， 人 吃 了 和 被 人 吃 了 怎么 能 是 一 样 ? 怎么 
IXAEL? ” 


我 癌 沃 古 瓦 教授 解释 道 : 其 实 中 国人 一 点 儿 也 不 感觉 到 乱 ， 我 们 
中 国人 在 说 话 时 是 分 辨 得 很 清楚 的 ， 因 为 我 们 中 国人 知道 ， 在 一 般 的 
情况 下 ， 人 是 不 能 被 吃 的。 所 以 “小 王 吃 了 ”的 语义 不 能 钙 “ 小 王 被 吃 
了 ”， 而 点 心 不 吃 东西 ， 所 以 “点 心 吃 了 ”必定 是 “点 心 被 吃 了 ”。 汉语 是 
靠 词 汇 的 固有 语义 来 解决 语法 问题 的 ， 但 是 对 于 你 们 法 国人 来 讲 ， 并 
不 存在 这 样 的 问题 。 所 以 ， 我 们 不 能 按照 法 语 的 思考 方法 来 处 理 这 个 
汉语 的 问题 ， 我 们 必须 另 辟 踩 径 ! 


沃 古 瓦 教授 是 一 个 知识 广博 、 有 眼界 开 尊 的 学 者 ， 他 鼓励 我 沿 着 这 
个 思路 继续 探索 。 他 对 我 说 :“ 乔 姆 斯 基 的 短语 结构 语法 也 不 一 定 永远 
正确 嘛 ! ” 


在 我 告别 时 ， 沃 古 瓦 教授 兴奋 地 说 : “我 相信 ， 你 一 定 能 找 出 一 种 
汉语 自动 分 析 的 新 方法 。” 


这 次 和 沃 古 瓦 教授 的 谈话 使 我 深刻 地 认识 到 ， 乔 姆 斯 基 的 短语 结 
构 语法 在 汉语 目 动 分析 时 确实 出 现 了 极 大 的 困难 。 这 种 困难 甚至 连 活 
古 瓦 教授 这 样 世界 第 一 流 的 计算 语言 学 家 也 承认 了 “。 作 为 中 国 的 科学 
工作 者 ， 我 必须 想 出 一 种 新 的 办 法 ， 来 区 服 短语 结构 语法 的 缺点 。 不 
然 ， 我 现在 进行 的 汉语 目 动 分 析 束 很 难 扩 下 去 了 。 


这 一 天 夜里 我 很 不 平静 ， 翻 来 履 去 总 在 思考 这 个 问题 。 第 二 天 清 
TR, 我 走 到 沃 古 瓦 教授 的 办 公 室 ， 明 确 地 同 沃 古 瓦 教授 提出 ， 我们 正 


面临 一 个 新 的 挑战 ， 我 们 必须 要 思考 一 种 新 的 语法 理论 来 解决 这 个 问 
题 。 沃 古 瓦 教授 完全 同意 我 的 意见 ， 他 进一步 鼓励 我 探索 新 的 理论 和 
方法 来 解决 汉语 目 动 分 析 中 出 现 的 这 个 困难 问题 。 


在 沃 古 瓦 教 授 的 鼓励 下 ， 我 对 这 个 问题 反复 进行 了 思考 。 我 观察 
到 : “小 王 吃 了 ”和 “点 心 吃 了 ”这 两 个 貌似 相同 的 句子 在 词汇 的 语义 上 
有 很 大 的 不 同 , “小 王 * 在 语义 上 是 一 个 “人 ”， 在 一 般 情况 
下 ,“ 人 ”是 “ 吃 了 ”这 个 行为 的 主动 者 (agent) ， 而 “点 心 ”在 语义 上 
是 “食品 ”， 在 一 般 情况 下 , “食品” 是 “ 吃 了 ”这 个 行为 的 被 动 填 
(patient) ， 是 “ 吃 了 ”的 对 象 。 在 短语 结构 规则 S ~ NP+VP 中 ， 如 果 我 
们 不 要 把 NP 看 成 一 个 不 可 分 割 的 单元 ， 而 把 NP 进一步 加 以 分 割 ， 使 
用 若干 个 特征 来 代替 NP 这 个 单一 的 特征 。 例 如 ， 在 “小 王 吃 了 ”中 ， 我 
们 把 NP 分 解 为 “NP| 人 ”两 个 特征 ， 在 “点 心 吃 了 ”中 ， 我 们 把 NP 分 解 
为 “NP 食品” 两 个 特征 ， 这 样 一 来 ， 就 有 可 能 在 计算 上 把 它们 分 解 开 来 
了 。 在 计算 机 处 理 语言 时 ， 特 征 也 就 是 “标记 ”， 因 此 ， 我 提出 ， 如 果 
我 们 使 用 “多 标记 ” (multiple label) 来 代替 短语 结构 语法 中 的 * 单 标 
W” (mono label) ， 就 有 可 能 大 大 地 提高 短语 结构 语法 描述 语言 的 能 
力 ， 我 们 就 可 以 使 用 改进 后 的 这 种 语法 来 描述 汉语 ， 实 现 汉 语 的 自动 
分 析 。 这 就 是 我 关于 “多 标记 ”的 设想 。 


我 对 于 短语 结构 语法 的 另 一 个 改进 是 使 用 多 又 树 代替 短语 结构 语 
法 的 二 又 树 。 乔 姆 斯 基 曾 经 提出 乔 姆 斯 基 和 犯 式 ， 他 认为 目 然 语 言 的 结 
构 具 有 二 分 的 特性 ， 因 此 他 主张 在 自然 语言 处 理 中 使 用 “二 叉 
Pj" (binary-tree) 。 我 认为 ， 在 汉语 中 存在 着 “ 兼 语 式 ”和 “ 连 动 式 ”等 
特殊 句 式 ， 它 们 都 不 具备 二 分 的 特性 ， 因 此 ， 我 主张 使 用 "多 又 树 ” 来 
代替 “二 又 树 ”， 从 而 提高 短语 结构 语法 描述 汉语 的 能 力 。 例 如 , “请 小 
王 吃 饭 ?” 是 一 个 兼 语 式 的 句子 ， 其 中 的 “小 王 ? 做 前 一 个 动词 “请 ”的 宾 


语 ， 又 做 后 一 个 动词 “吃饭 ”的 主语 ， 在 计算 机 处 理 时 ， 络 竟 是 分 析 
为 “请 NER. TEENE NMR”, RAZREDE, XT 
PHRASE, WR RT, Rate BPR AC A, XBJX 
了 句法 树 的 “ 非 交 特性 ”。 如 采 我 们 采取 三 分 ， 把 这 个 句子 分 析 为 “请 / 
小 王 /号 饭 ”， 可 以 避免 分 析 树 的 交 义 ， 得 到 唯一 的 分 析 结 采 。 


经 过 在 计算 机 上 编写 程序 进行 潜心 的 钻研 和 反复 的 试验 ， 我 提出 
了“ 多 义 多 标记 树 模 型 ” (Multiple-labeled and Multiple-branched Tree 
Model， 简 称 MMT 模 型 ) ， 在 MMT 模 型 中 ， 我 采用 多 值 标记 函数 
( multiple-label function) 来 代替 短语 结构 语法 的 单 值 标记 画 数 
(mono-label function) ， 使 得 树 形 图 中 的 一 个 结 点 ， 不 再 仅仅 对 应 于 
一 个 标记 ， 而 是 对 应 于 若干 个 标记 ， 我 还 使 用 多 叉 树 来 代替 二 文 树 ， 
这 样 便 大 大 地 提高 了 树 形 图 的 标记 能 力 ， 使 得 树 形 图 的 各 个 结 点 上 ， 
都 能 记录 足够 多 的 语法 语义 信息 ， 把 句子 中 所 旨 含 的 丰富 多 采 的 信息 
充分 地 表示 出 来 ， 这 种 多 值 标记 函数 的 理论 ， 从 根本 上 克服 了 乔 姆 斯 
基 的 短语 结构 语法 在 描述 自然 语言 时 的 严重 缺点 ， 提 高 了 其 有 限 的 分 
析 能 力 ， 限 制 了 其 过 强 的 生成 能 力 。 显 而 易 见 ，MMT 模 型 是 对 乔 姆 斯 
基 短 语 结构 语法 的 一 个 带 有 实质 意义 的 重要 改进 ， 这 个 模型 提出 后 ， 
立即 引起 了 国际 语言 学 界 的 高 度 重 视 ， 在 1982 年 于 布拉格 召开 的 国际 
计算 语言 学 会 议 (COLING'82) 上 ， 在 1983 年 于 北京 召开 的 国际 中 文 
言 息 处 理会 议 (1CCIP'83) 上 ， 在 1984 年 于 香港 召开 的 东南 亚 电 脑 会 
i| (SEARCC'84) 上 ， 我 都 介绍 了 MMT 模 型 。 沃 古 瓦 教授 在 国际 计算 
语言 学 会 议 COLING'82 的 大 会 发 言 中 ， 也 满腔 热情 地 赞扬 了 我 的 研究 
THE ° 


忠 在 我 提出 MMT 模 型 的 同时 ， 国 外 一 些 计算 语言 学 家 也 看 到 了 短 
语 结构 语法 的 局 限 性 ， 分 别提 出 了 各 种 手段 来 改进 它 。 例 如 1983 年 卡 


普兰 (R.M. Kaplan) 和 布 列 斯 南 (J.Bresnan) 提出 的 “词汇 功能 语 
E” ` 1983F ZT- (Martin Kay) 提出 的 “功能 合 一 语法 ”、1985 年 
盖 效 达 (G.Gazdar) 等 提出 的 “广义 短语 结构 语法 ”、1985 年 珀 拉 德 
(C.Pollard) 提出 的 “中 心 语 张 动 的 短语 结构 语法 ”等 ， 都 采用 了 “复杂 
特征 ” (complex features) 来 描述 自然 语言 ， 他 们 所 请 的 “复杂 特征 ” 实 
际 上 也 就 是 我 提出 的 “多 值 标记 ” (multiple lablels) ， 名 异 而 实 同 。 所 
以 ， 我 当时 提出 的 MMT 模 型 ， 是 全 世界 计算 语言 学 者 对 乔 姆 斯 基 的 短 
语 结构 语法 进行 改进 的 一 个 重要 方面 和 不 可 分 割 的 组 成 部 分 ，MMT 模 
型 是 20 世 纪 80 年 代 较 早 提 出 的 一 个 旨 在 改进 短语 结构 语法 的 形式 化 模 
型 ， 当 时 我 国学 者 在 这 方面 的 研究 在 国际 上 是 处 于 前 沿 地 位 的 。 


1984 年 向 兰 阿姆斯特丹 北 荷 兰 出 版 社 出 版 的 多 卷 专 车 《 计 算 机 科 
学 基础 研究 》 第 9 卷 《 目 然 语言 处 理 的 计算 机 模型 》 一 书 (由 意大利 米 
兰 大 学 主编 ) 中 ， 曾 详细 介绍 了 MMT 模 型 ， 并 评论 说 :“ 汉 氏 关 于 独 
立 分 析 一 独立 生成 的 主张 ， 关于 尽 可 能 地 从 源 语 言 分 析 中 获取 多 方面 
言 息 的 主张 ， 是 当前 自然 语言 处 理 研 究 中 的 一 个 重要 进展 。” 


我 还 结合 汉语 的 特点 需要 ， 全 究 了 采用 MMT 模 型 来 解决 汉语 目 动 
分 析 的 各 种 问题 。 我 认为 ， 在 汉语 的 目 动 分 析 中 ， 采 用 “多 值 标 记 ” 的 
必要 性 更 加 明显 。 这 是 因为 汉语 的 句子 不 能 只 用 词类 或 词组 类 型 等 简 
单 特征 来 描述 ， 汉 语句 子 各 个 成 分 的 词类 、 词 组 类 型 、 句 法 功能 、 语 
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单 特征 ， 丈 无 法 区 分 各 种 疏 义 现象 ， 达 不 到 汉语 目 动 处 理 的 目的 。 具 
体 地 说 ， 这 是 由 于 : 1. 汉语 句子 中 的 词组 类 型 (或 词类 ) 与 句法 功能 
之 间 不 存在 简单 的 一 一 对 应 关系 ; 2. 汉语 句子 中 词组 类 型 (或 词类 ) 
和 句法 功能 相同 的 成 分 ， 它 们 与 句子 中 其 它 成 分 的 语义 关系 还 可 能 不 
同 ， 句 法 功能 和 语义 关系 之 间 也 不 是 简单 地 一 一 对 应 的 ;3. 汉语 中 单 


词 所 固有 的 语法 特征 和 语义 特征 ， 对 于 判别 词组 结构 的 性 质 ， 往 往 有 
很 大 的 参考 价值 ， 除 了 词组 类 型 这 样 的 稍 单 特征 之 外 ， 再 加 上 单词 固 
有 的 语法 特征 和 语义 特征 ， 采 用 多 值 标 记 来 描述 ， 束 可 以 判断 词组 结 
构 的 性 质 。 


我 还 提出 了 用 于 多 值 标 记 的 汉语 “特征 一 值 ” 系 统 ， 特 征 可 分 为 静 
态 特征 (static feature) 和 动态 特征 (dynamic feature) 两 大 类 。 其 
中 ， 静 态 特征 有 : 词类 特征 、 单 词 的 固有 语义 特征 和 它 的 值 、 词 的 固 
有 语法 特征 和 它 的 值 ， 动 态 特 征 有 : 词组 类 型 特征 和 它 的 值 、 句 法 功 
能 特征 、 语 义 关系 特征 、 逻 辑 天 系 特征 。 在 自动 句法 语义 分 析 中 ， 静 
态 特 征 是 计算 机 进行 运算 的 基础 ， 计 算 机 依赖 于 这 些 预 先 在 词典 中 给 
出 的 静态 特征 ， 通 过 有 和 穷 步骤 的 运算 ， 逐 渐 计 算出 各 种 动态 特征 ， 从 
而 逐步 弄 清楚 汉语 句子 中 各 个 语言 成 分 之 间 的 天 系 ， 达 到 句法 语义 分 
析 的 目的 。 这 就 是 我 的 “双人 态 理 论 ” (bi-states theory) 。 


我 在 法 国 留学 期 间 ， 了 解 到 法 国语 言 学 家 泰 尼 埃 (L. Tesniere) 的 
从 属 关 系 语 法 和 语法 “ 价 ” 的 概念 ， 我 用 这 种 语法 来 研究 汉 外 机 器 翻译 
问题 ， 首 次 把 “ 价 ” (valence) 的 概念 引入 我 国 的 机 器 翻译 研究 中 ， 我 
把 动词 和 形容 词 的 行动 元 (actant) 分 为 主体 者 、 对 象 者 、 受 益 者 三 
个 ， 把 状态 元 (circonstant) 分 为 时 刻 、 时 段 、 时 间 起 点 、 时 间 终 点 、 
空间 点 、 空 间 段 、 空 间 起 点 、 空 间 终点 、 初 态 、 末 态 、 原 因 、 结 
目的 、 工 具 、 范 围 、 条 件 、 人 作用、 内容、 论题 、 比 较 、 伴 随 、 程 度 、 
判断 、 陈 述 、 附 加 、 修 饰 等 27 个 ， 以 此 来 建立 多 语言 的 自动 句法 分 析 
系统 ， 对 于 一 些 表 示 观 念 、 感 情 的 名 词 ， 也 分 别 给 出 了 它们 的 价 。 我 
还 把 从 属 关系 语法 和 短语 结构 语法 结合 起 来 ， 在 表示 结构 关系 的 多 又 
多 标记 树 形 图 中 ， 明 确 地 指出 中 心 语 的 位 置 ， 并 用 核心 (GOV) 、 枢 


轴 (PIVOT) 等 结 点 来 表示 中 心 词 。 这 是 我 国学 者 最 早 利用 从 属 关 系 
语法 和 配 价 语法 来 进行 目 然 语言 计算 机 处 理 的 笑 试 。 


我 根据 机 器 翻译 的 实践 ， 提 出 了 表示 从 属 天 系 语法 的 从 属 树 
(Dependence Tree) 应 该 满足 如 下 5 个 条 件 : 1. 单纯 结 点 条 件 : 从 属 树 
中 ， 只 有 终极 结 点 ， 没 有 非 终极 结 点 ， 从 属 树 中 的 所 有 结 点 所 代表 的 
都 是 句子 中 实际 出 现 的 具体 的 单词 ; 2. 单一 父 结 点 条 件 : 在 从 属 树 
中 ， 除 了 根 结 点 没有 父 结 点 之 外 ， 所 有 的 结 点 都 只 有 一 个 父 结 点 ; 3. 
独 根 结 点 条 件 : 一 个 从 属 树 只 能 有 一 个 根 结 点 ， 这 个 根 结 点 ， 残 是 从 
属 树 中 唯一 没有 父 结 点 的 结 点 ， 这 个 根 结 点 文 配 着 其 他 的 所 有 的 结 
点 ; 4. 非 交 条 件 : 从 属 树 中 的 树 校 不 能 彼此 相交 ; 5. ERR: ME 
树 中 的 结 点 之 间 ， 从 上 到 下 的 支配 关系 和 从 左 到 右 的 前 于 关系 之 间 是 
互相 排斥 的 ， 如 果 两 个 结 点 之 间 存 在 着 文 配 天 系 ， 它 们 之 间 就 不 能 存 
在 前 于 关系 。 我 提出 的 这 5 个 条 件 比 1970 年 美国 计算 语言 学 家 罗 宾 孙 
(J. Robinson). 提出 的 从 属 关 系 语 法 的 4 条 公理 更 加 直观 ， 更 加 便于 在 
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我 在 法 国 研 究 的 另 一 个 问题 是 生成 语法 的 公理 化 方法 。 我 从 公理 
化 方法 的 角度 来 研究 乔 姆 斯 基 的 形式 文法 ， 把 乔 姆 斯 基 的 形式 文法 同 
数学 中 的 半 图 厄 系统 (semi-Thue system) 相 比较 ， 指 出 了 乔 姆 斯 基 的 
形式 文法 ， 实 际 上 是 数学 中 的 公理 系统 理论 在 语言 分 析 中 的 一 种 应 
用 ,语言 就 是 由 文法 这 一 公理 系统 从 初始 从 号 出 发 推导 出 的 无 限 句 子 
的 集合 ， 文法 的 规则 是 有 限 的 ， 文 法 中 的 终极 符号 和 非 终 极 符 号 的 数 
目 也 是 有 限 的 ， 可 是 ， 由 于 语言 符号 具有 递归 性 ， 文 法 这 一 公理 系统 
残 能 够 根据 有 限 的 符号 ， 通 过 有 限 的 重 写 规 则 ， 递 归 地 推导 出 无 限 的 
句子 来 。 这 样 的 研究 ， 从 数学 的 基础 理论 方面 揭示 了 形式 文法 的 实 
质 o 


根据 MMT 模 型 ， 我 于 1981 年 完成 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 
翻译 试验 ， 建 立 了 FAJRA 系 统 (FAJRA 是 法 语 、 英 语 、 日 语 、 俄 语 、 
德语 的 法 文 首 字母 缩写 ) 。 在 IBM-4341 大 型 计算 机 上 ， 把 二 十 多 篇 汉 
语 的 文章 自动 地 翻译 成 英文 、 法 文 、 日 文 、 俄 文 、 德 文 。 这 是 世界 上 
第 一 个 汉语 到 多 种 外 语 的 机 器 翻译 系统 ， 开 创 了 多 语言 机 器 翻译 系统 
之 先河 。 


我 的 研究 从 理论 和 实践 上 都 改进 了 短语 结构 语法 ， 受 到 了 导师 沃 
古 瓦 教授 的 赞 沉 。 我 急 着 想 把 这 些 成 末 应 用 到 中 国 的 科技 信息 文献 的 
大 规模 翻译 方面 ， 建 立 一 个 实用 的 机 絮 翻 译 系 统 ， 因 此 ， 实 验 报告 一 
写 完 ， 我 吏 马 上 告别 沃 古 瓦 教授 ， 离 开 法 国 回 到 了 祖国 。 


5. 立志 做 文理 兼 通 的 语言 学 家 


回 到 北京 ， 我 想到 的 第 一 件 事 情 瑟 古 到 北京 大 学 拜见 著名 语言 学 
家 王 力 完 生 ， 同 王 力 先 生 汇 报 我 在 法 国学 习 的 收获 。 早 年 在 北京 大 学 
中 文系 开始 研究 数理 语言 学 的 时 候 ， 王 力 允 生 吏 文 持 过 我 的 研究 ， 在 
北京 大 学 求学 期 间 ， 我 曾经 认真 地 听 过 王 力 先 生 讲 授 的 《古代 汉语 》 
《汉语 史 》《 中 国语 言 学 史 》《 请 代 古 音 学 》 等 课程 ， 这 些 课程 ， 为 
我 后 来 的 计算 语言 学 研究 莫 定 了 坚实 的 基础 ， 我 永远 起 不 了 恩师 王 力 
yee? 


1982 年 春天 ， 我 和 老 同学 吴 坤 定 ( 现 为 北京 出 版 社 编审 ) 一 起 到 
北京 大 学 燕 南 园 去 看 户 王 力 完 生 。 一 进 |]， 先 生 束 高 兴 地 请 我 们 坐 
下 。 先 生 对 我 说 :“ 听 说 你 到 法 国之 后 已 经 改行 学 习 目 然 科 学 了 ， 现 
在 ， 你 有 了 很 好 的 数理 化 基础 ， 因 此 也 束 有 了 科学 的 头脑 。 这 些 都 古 


很 宝贵 的 财富 ， 在 语言 学 研究 中 随时 用 得 着 。” 我 向 先生 汇报 了 自己 在 
法 国 研 究 多 语言 机 右 翻 译 的 收获 。 先 生 细 心地 听 着 ， 他 对 我 说 :“ 我 前 
年 在 武汉 开 的 中 国语 言 学 会 成 立 大 会 上 曾经 说 ， 我 一 面 子 吃 趣 束 吃亏 
在 我 不 慌 数 理化 。 现 在 你 懂得 数理 化 ， 束 不 会 像 我 这 样 吃亏 了， 我 相 
信 你 今后 一 定 会 做 出 更 好 的 成 绩 。? 接 着 ， 先 生 又 说 : “20 多 年 前 我 曾 
经 对 你 说 过 ， 我 希望 你 学 习 赵 元 任 先 生 。 当 然 ， 这 是 很 难 的 。 赵 元 任 
先生 有 和 哲学 家 、 物 理学 家 、 数 学 家 、 文 学 家 、 首 乐 家 做 故 子 ， 最 后 才 
成 为 世界 著名 的 语言 学 家 的 。 我 一 夺 子 部 想 学 他 ， 但 是 ， 我 的 数理 化 
基础 差 ， 没 有 学 好 。 你 现在 到 法 国学 习 了 目 然 科学 ， 已 经 具备 学 习 赵 
元 任 先 生 的 条 件 了 ， 我 再 一 次 提醒 你 ， 你 要 疝 赵 元 任 先 生 学 习 ， 而 且 
一 定 要 学 得 比 我 好 ?”。 先 生 这 些 语 重心 长 的 话 ， 极 大 地 鼓励 了 我 ， 我 决 
心 按照 先生 的 教导 ， 把 数理 化 的 知识 和 语言 学 的 知识 结合 起 来 ， 做 一 
个 信息 时 代 的 文理 兼 通 的 语言 学 家 。 


从 法 国 回 国之 后 ， 我 在 中 国 科技 信息 研究 所 计算 中 心 担 任 机 峰 翻 
译 人 研究 组 的 组 长 ， 在 王 力 先生 的 鼓励 之 下 ， 我 利用 当时 北京 遥感 技术 
研究 所 的 IBM-4361 计 算 机 ， 于 1985 年 进行 了 德 一 汉 机 器 翻译 试验 和 
法 - 汉 机 器 翻译 试验 ， 建 立 了 GCAT 德 一 汉 机 器 翻译 系统 和 FCAT 法 - 汉 
机 器 翻译 系统 ， 检 验 了 MMT 模 型 生成 汉语 的 能 力 ， 试 验 结果 良好 。 可 
惜 当 时 由 于 国内 的 科研 资金 缺乏 ， 不 能 提供 足够 的 财力 和 人 力 来 开展 
更 大 规模 的 实验 ， 我 要 建立 实用 性 机 器 翻译 系统 的 愿望 没有 马上 实 
现 。 


1982 年 秋天 ， 我 应 北京 大 学 的 邀请 ， 在 北京 大 学 中 文系 汉语 专业 
开设 了 “语言 学 中 的 数学 问题 "的 选修 课 。 这 十 国内 首次 在 高 等 学 校 全 
面 地 、 系 统 地 讲述 数理 语言 学 的 谋 程 ， 受 到 学 生 们 的 欢迎 。 北 京 大 学 
前 任 校 长 、 著 名 数学 家 丁 石 让 教授 在 他 的 专 着 《数学 与 教育 》 一 书 


中 ， 对 这 门 课程 作 了 如 下 的 评价 : “1982 年 ， 北 京 大 学 中 文系 开设 了 
《语言 学 中 的 数学 问题 》， 这 是 给 汉语 专业 学 生 开 的 选修 课程 ， 许 多 
同学 对 这 门 学 科 产 生 了 很 大 的 兴趣 ， 经 过 一 个 学 期 的 学 习 ， 同 学 们 初 
步 认 识 了 现代 数学 的 发 展 给 语言 学 注入 了 生机 ， 觉 得 获 益 菲 浅 ， 对 语 
言 学 这 门 古 老 的 学 科 分 支 的 发 展 充满 了 信心 ， 而 且 这 一 举动 冲击 了 相 
当 多 的 人 的 旧 概念 ， 使 用 塞 的 中 国学 术 界 认识 到 ， 即 使 在 人 文科 学 教 
育 中 ， 数 学 也 在 逐渐 起 作用 。” 呈 


在 北京 大 学 讲稿 的 基础 之 上 ， 我 写 出 了 我 国 第 一 部 数理 语言 学 的 
专 痢 ， 书 名 就 叫做 《数理 语言 学 》， 于 1985 年 8 月 由 上 海 的 知识 出 版 社 
出 版 。 接 着 ， 我 又 出 版 了 《 目 动 翻译 》 的 专车， 深入 地 探讨 目 然 语言 
机 器 翻译 的 理论 和 实践 问题 。 这 两 本 专 闭 的 出 版 ， 受 到 了 我 国 计 算 语 
言 学 界 的 欢迎 。 不 少 出 国学 习 计 算 语 言 学 的 留学 生 ， 出 国 时 都 带 着 这 
两 本 书 ， 作 为 入 门 的 网 导 。 


6. 研制 世界 上 第 一 个 中 文 术语 数据 库 


1985 年 ， 原 文字 改革 委员 会 改名 为 国家 语言 文字 工作 委员 会 ， 需 
要 计算 语言 学 方面 的 人 才 ， 我 调 入 了 国家 语言 文字 工作 委员 会 语言 文 
字 应 用 研究 所 担任 计算 语言 学 研究 室 主 任 ， 得 以 专门 从 事 计算 语言 学 
的 研究 工作 ， 这 是 我 1978 年 弃 文 学 理 之 后 又 一 次 拜 理 从 文 ， 我 又 重新 
回 到 了 语言 学 的 怀抱 。 与 此 同时 ， 由 于 工作 的 需要 ， 我 还 在 中 国 科 学 
院 软件 研究 所 担任 兼职 研究 员 的 工作 。 


根据 中 德 科技 合作 协定 ， 我 受 中 国 科学 院 软 件 研 究 所 的 派 遗 ， 于 
1986 年 至 1988 年 到 德国 夫 环 禾 费 人 研究 院 新 信息 技术 与 通讯 系统 全 完 所 


(Fraunhofer Gesellschaft， 人 简称 FhG) 担任 客座 人 研究员， 从 事 术 语 数 据 
库 的 开发 。 


术语 是 人 类 科学 技术 知识 在 目 然 语 言 中 的 结 唱 。 术 语 数据 库 是 在 
计算 机 上 建立 的 人 类 科学 技术 的 知识 库 ， 这 项 研究 属于 知识 工程 的 研 
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当时 世界 上 还 没有 很 好 的 汉字 输入 输出 软件 ， 我 国 目 己 开 发 的 
CCDOS 还 很 不 成 熟 ， 我 克服 了 重重 困难 ， 在 FhG 使 用 UNIX 操 作 系 统 
和 INGRES 软 件 ， 建 立 了 数据 处 理 领 域 的 中 文 术语 数据 库 GLOTC， 并 
且 把 这 个 数据 库 与 FhG 的 其 他 语言 的 术语 数据 库 相 连接 ， 可 以 快速 地 
进行 多 语言 术语 的 查询 和 检索 ， 而 且 还 可 以 处 理 简 沾 体 的 汉字 。 这 是 
世界 上 第 一 个 中 文 术语 数据 库 ， 具 有 开创 作用 。 


在 FhG 人 饶 究 术 语 数 据 库 的 过 程 中 ， 我 还 接触 到 多 种 语言 的 大 量 术 
语 ， 我 惊异 地 发 现 ， 几 乎 在 每 一 种 语言 中 ， 词 组 型 术语 的 数量 都 大 大 
地 超过 了 单词 型 术语 的 数量 。 根 据 多 年 前 我 学 习 过 的 伽利略 和 牛顿 的 
科学 方法 论 ， 我 试图 揭示 出 语言 事实 后 面 隐藏 的 本 质 ， 从 理论 上 对 这 
样 的 语言 事实 进行 解释 。 


为 此 ， 我 把 数理 语言 学 的 理论 应 用 到 术语 数据 库 的 研究 中 ， 提 出 
了 “术语 形成 的 经 济 律 ”。 


我 根据 大 量 的 实验 数据 证 明了 : 在 一 个 术语 系统 中 ， 术 语系 统 的 
经 济 指数 与 术语 平均 长 度 的 乘积 恰恰 等 于 单词 的 术语 构成 频 度 之 值 ， 
并 提出 了 “FEL 公 式 ” 来 描述 这 个 定律 。 根 据 FEL 公 式 可 知 ， 在 一 个 术语 
系统 中 ， 提 高 术语 系统 经 济 指数 的 最 好 方法 是 在 尽量 不 过 大 地 改变 术 
语 平均 长 度 的 前 提 下 ， 增 加 单词 的 术语 构成 频 度 。 这 样 ， 在 术语 形成 


的 过 程 中 ， 将 会 产生 大 量 的 词组 型 术语 ， 使 得 词组 型 术语 的 数量 大 大 
地 超过 单词 型 术语 的 数量 ， 而 成 为 术语 系统 中 的 大 多 数 。FEL 公 式 从 
数理 语言 学 的 角度 ， 正 确 地 解释 了 为 什么 术语 系统 中 词组 型 术语 的 数 
目 总 是 远 远大 于 单词 型 术语 的 数目 的 数学 机 理 ， 它 反映 了 语言 中 的 省 
力 原则 和 经 济 原则 ， 这 是 我 国学 者 对 于 数理 语言 学 中 著名 的 齐 夫 定 律 
(Zipf's law) 的 新 发 展 ， 并 从 术语 的 角度 说 明了 语言 中 的 省 力 原则 和 
经 济 原则 是 具有 普遍 意义 的 原则 中 。 


“术语 形成 的 经 济 律 ”提出 之 后 ， 国 内 外 的 术语 学 研究 者 根据 术语 
数据 库 的 事实 进行 检验 ， 检 验证 明 ， 在 各 种 语言 的 术语 数据 库 中 ， 词 
组 型 术语 的 数目 都 大 于 单词 型 术语 的 数目 。 因 此 , “术语 形成 的 经 济 
律 ” 和 是 适应 于 各 种 语言 的 一 条 普 过 规律 ， 是 现代 术语 学 的 一 条 重要 的 基 
本 定律 。 


语言 是 现实 的 编码 体系 ， 术 语 形成 的 经 济 律 反 映 了 用 词 作 为 语言 
材料 进行 单词 型 术语 和 词组 型 术语 的 编码 时 的 经 济 律 ， 这 一 经 济 律 也 
可 适用 于 语言 编码 的 其 他 领域 。 汉 语 中 在 用 单字 组 成 多 字 词 的 时 候 ， 
有 限 数目 的 单字 组 成 了 为 数 可 观 的 多 字 词 ， 多 字 词 以 增加 目 吴 的 长 度 
为 代价 来 保持 汉语 中 原 有 单字 的 个 数 或 者 尽量 不 增加 原 有 单子 的 个 
数 ， 体 现 了 组 字 成 词 这 个 编码 过 程 的 经 济 律 。 多 字 词 也 束 是 双 首 词 或 
多 音 词 ， 涛 名 语言 学 家 吕 叔 湘 移 生 指出 , “北方 话 的 语音 面 铝 在 最 近 几 
百年 里 没有 多 大 变化 ， 可 是 双 音 词 的 增加 以 近 百 年 为 甚 ， 而 且 大 部 分 
古 与 经 济 、 政 治 和 文化 生活 有 关 的 所 谓 '‘ 新 名 词 '。 可见 同 首 词 在 现代 
主要 是 起 消极 作用 ， 就 是 说 ， 要 创造 新 的 单 首 词 是 极其 困难 的 了 。” 吕 
卜 湘 先生 在 这 里 一 方面 指出 了 要 创造 新 的 单 音 词 ( 即 单字 ) 极其 困 
难 ， 一 方面 又 指出 了 双 音 词 〈 即 双 字 词 ) 的 大 量 增加 的 现象 ， 这 正 是 
组 字 成 词 的 经 济 律 的 生动 体现 。 


对 汉字 结构 及 其 构成 成 分 的 统计 与 分 析 表 明 ， 在 《辞海 》 (1979 
年 版 ) 所 收 的 16 295 个 字 和 GB2312-80 国 家 标准 《信息 交换 用 汉字 编码 
字符 集 : 基 本 集 》 收 入 而 《辞海 》 未 收 的 43 个 字 中 ， 简 化 字 和 被 简化 的 
繁体 字 (包括 被 淘汰 的 异体 字 和 计量 用 字 ) 以 及 未 简化 的 汉字 共有 16 
339 个 ， 它 们 是 由 675 个 不 能 再 分 解 的 末 级 部 件 构 成 的 ， 简 化 字 和 未 简 
化 的 汉字 (不 包括 被 简化 的 繁体 字 、 被 淘汰 的 异体 字 和 计量 用 字 ) X 
11 837 个 ， 它 们 是 由 648 个 不 能 再 分 解 的 末 级 部 件 构 成 的 。 由 少量 的 部 
件 构 成 大 量 的 汉字 ， 体 现 了 部 件 构 成 汉字 这 一 编码 过 程 的 经 济 律 。 


所 以 ， 术 语 形成 经 济 律 实际 上 力 是 “语言 编码 的 经 济 律 "， 这 是 语 
言 学 中 的 一 个 普遍 规律 ， 它 支配 着 语言 编码 的 所 有 过 程 。 


在 研究 FEL 公 式 的 同时 ， 我 还 提出 了 “生词 增幅 递减 律 *”， 我 指 
出 ， 在 一 个 术语 系统 中 ， 每 个 单词 的 绝对 频 度 是 不 同 的 ， 经 第 使 用 的 
单词 是 高 频 词 ， 不 经 名 使 用 的 单词 是 低频 词 ， 随 着 术语 条 目的 增加 ， 
高 频 词 的 数目 也 相应 地 增加 ， 而 生词 出 现 的 可 能 性 越 来 越 小 ， 这 时 ， 
尽管 术语 的 条 数 还 继续 增加 ， 生 词 总 数 增加 的 速率 却 越 来 越 慢 ， 而 高 
频 词 则 反复 地 出 现 ， 生 词 的 增幅 有 递减 的 趋势 。 这 个 “生词 增幅 递减 
律 ” 不 仅 适 用 于 术语 系统 ， 也 适用 于 阅读 书面 文本 的 过 程 ， 人 们 在 阅读 
一 种 用 自己 不 熟悉 的 语言 写 的 文本 时 ， 开 始 总 有 大 量 不 认识 的 生词 ， 
随 着 阅读 数量 的 增加 ， 生 词 增 加 的 幅度 会 逐渐 减少 ， 如 果 阅 读者 能 够 
掌握 好 已 经 阅读 过 的 生词 ， 阅 读 将 会 变 得 越 来 越 容 易 。 


我 还 与 上 海区 通 大 学 博士 生 李 品 洁 人 合作， 基于 布衣 语料库 
(Brown corpus) 的 证 据 ， 考 察 科技 英语 的 篇 际 词汇 增长 模型 ， 以 篇 
草 为 计量 单位 ， 描 述 科 技 英语 文本 中 词汇 量 与 累积 文本 容量 之 间 的 函 
数 关 系 。 我 们 注意 到 ， 国 外 现 有 的 词汇 增长 模型 不 能 够 精确 地 摘 述 科 
技 英 语 的 词汇 增长 曲线 ， 因 此 ， 我 们 通过 对 需 函 数 和 对 数 函 数 的 比较 


分 析 ， 构 建 了 新 的 词汇 增长 模型 ， 并 应 用 此 模型 推导 出 科技 英语 的 理 
论 词汇 增长 曲线 及 其 95% 双 向 置信 区 间 。 


在 术语 人 研究 中 ， 我 还 提出 了 “潜在 收 义 论 ” (Potential Ambiguity 
Theory， 简 称 PA 论 ) ， 指 出 了 中 文 术语 的 收 义 格式 中 ， 包 含 着 歧义 性 
的 一 面 ， 也 包含 着 非 层 义 性 的 一 面 ， 因 而 这 样 的 歧义 格式 是 潜在 的 ， 
它 只 是 具有 歧义 的 可 能 性 ， 而 并 非 现 实 的 皮 义 ， 潜 在 的 歧义 能 否 专 转 
化 成 现实 的 歧义 ， 要 通过 洪 在 歧义 结构 的 “实例 化 ” (instantiation) 过 
程 来 实现 , “实例 化 ”之 后 ， 有 的 歧义 结构 会 变 成 真正 的 歧义 结构 ， 有 
的 歧义 结构 则 不 然 。 这 一 理论 是 对 传统 语言 学 中 “类 型 一 实例 ” (type- 
token) 观念 的 冲击 ， 深 化 了 对 于 歧义 格式 本 质 的 认识 ， 近 年 来 ， 我 又 
把 PA 论 进一步 推广 到 日 常 语言 的 领域 ,促进 了 自然 语言 处 理 中 的 歧义 
消解 的 研究 。 


术语 是 记录 科学 技术 知识 的 基本 单元 ， 因 此 ， 术 语 的 研究 对 于 人 
类 知识 的 系统 处 理 ， 对 于 科学 技术 交流 都 有 着 重要 的 价值 。1987 年 ， 
我 把 这 些 人 研究 术语 的 成 果 写 成 《现代 术语 学 引 论 》 一 书 出 版 了 ， 这 赴 
我 国 第 一 本 关于 术语 学 理论 的 专 着 。 


7. 用 德语 讲授 中 国语 言 文学 课程 


1990 年 至 1993 年 ， 我 被 德国 特 里 尔 大 学 文学 院 聘任 为 客座 教授 。 
特 里 尔 是 一 座 有 2 000 年 历史 的 古城 ， 又 是 马克 思 的 故乡 ， 我 有 机 会 经 
常 到 马克 思 的 故居 了 解 这 位 无 产 阶级 革命 导师 的 光辉 业绩 。 


在 特 里 尔 大 学 文学 院 任教 期 间 ， 我 用 德语 给 德国 学 生 讲 授 《 汉 魏 
六 朝 散 文 》、《 唐 诗 宋词 》、《 中 国 现代 散文 》、《 汉 字 的 发 展 与 结 
构 》、《 汉 语 拼音 正 词法 》、《 汉 语词 汇 史 》、《 机 器 翻译 的 理论 和 
方法 》 等 课程 。 


我 学 过 德语 ， 有 一 定 的 德语 口语 交流 经 验 ， 可 是 ， 用 德语 在 高 等 
学 校 的 课 特 上 讲 诗 ， 与 日 常生 活 中 用 德语 口语 交流 大 不 一 样 ， 课 等 旦 
学 术 的 殿堂 ， 课 蔚 上 的 语言 不 能 有 很 多 差错 ， 特 别 十 不 能 在 语法 上 出 
错 ， 而 德语 语法 十 分 复杂 ， 需 要 我 严肃 对 每 。 为 了 讲 好 课 ， 我 藻 练 德 
语 口 语 ， 认 真 用 德语 备 好 每 一 让 课 ， 在 上 每 一 方 诬 之 前 ， 我 都 要 先 用 
德语 把 讲课 的 内 容 目 己 对 目 己 叙述 一 角 或 多 裔 ， 直 到 能 够 熟练 地 背诵 
KE, REER SET AWR AT Sa, RARE 
效果 越 来 越 好 ， 我 的 讲课 受到 德国 学 生 们 的 一 致 好 评 。 当 时 我 的 一 些 
德国 学 生 现 在 已 经 成 为 德国 知名 的 语言 学 家 了 。 


在 教学 中 ， 我 发 现 德 国学 生 学 习 汉 语 时 ， 学 讲话 并 不 困难 ， 最 困 
难 的 是 学 汉字 “。 汉 字数 量 多 ， 结 构 复 杂 ， 因 此 ， 我 开始 研究 如 何 教 德 
国学 生 学 习 汉 字 的 问题 。 


我 经 过 反复 的 思考 ， 把 目 己 在 法 国 留学 时 提出 的 MMT 模 型 运用 到 
汉字 结构 的 教学 中 ， 提 出 了 汉字 结构 的 括号 式 表示 法 ， 用 这 种 方法 可 
以 把 一 个 汉字 按 层 次 分 解 为 看 干 个 部 件 ， 构 成 一 个 树 形 结 构 ， 再 把 这 
样 的 树 形 结构 用 括号 表示 出 来 。 学 生 只 要 掌握 了 基本 的 汉字 部 件 ， 整 
可 以 进一步 学 会 由 这 些 部 件 构成 的 鳌 个 汉字 ， 以 简 驭 千 ， 使 汉字 便于 
理解 和 记忆 。 这 样 的 方法 受到 德国 学 生 的 欢迎 。 


我 把 这 样 的 研究 结果 写成 了 《汉字 的 历史 和 现状 》 一 书 用 德 文 在 
特 里 尔 科 学 出 版 社 出 版 。 德 国 特 里 尔 大 学 韦 集 雅 (Dorothea 


Wippermann) 博士 1996 年 在 《 评 冯 志 伟 新 著 〈 汉 字 的 历史 和 现状 》 

( 德 文 版 ，》 一 文中 指出 ， 冯 志 伟 “在 汉字 研究 中 引入 了 现代 的 成 分 分 
析 法 。 对 于 这 种 方法 ， 直 到 现在 为 止 ， 许 多 在 专家 圈子 之 外 的 普通 人 
还 很 不 熟悉 ， 所 知 极 少 。 这 种 分 析 法 认为 ， 汉 字 是 由 不 同 的 图 形成 分 
组 合 而 成 的 一 个 封闭 的 集合 ， 其 中 的 每 一 个 较 大 的 成 分 都 可 以 进一步 
被 拆 分 为 较 小 的 成 分 ， 一 直 被 拆 分 到 单独 的 笔画 为 止 。 汉 字 结 构 的 这 
种 多 层次 的 多 分 叉 的 构造 图 形 可 以 用 树 形 图 来 表示 ， 这 样 一 来 ， 便 为 
揭示 汉字 总 体 结构 的 研究 提供 了 一 种 系统 性 的 理论 和 方法 。 这 种 在 中 
文 信息 处 理 中 行 之 有 效 的 成 分 分 析 法 ， 对 于 汉字 的 研究 和 学 习 ， 也 提 
供 了 一 种 新 的 记忆 手段 ”。 


汉字 的 计算 机 处 理 一 直 是 我 关注 的 一 个 重要 的 应 用 问题 。 近 年 
来 ， 我 与 旅居 加 拿 大 的 青年 学 者 欧阳 贯 林 合作 ， 把 汉字 的 基本 字 根 归 
纳 为 25 个 ， 我 们 在 这 25 个 字 根 基础 上 提出 的 “机 写 汉字 学 习 法 ”( 简 
称 “ 和 码 ”) ， 这 是 一 种 以 简 驭 繁 的 汉字 学 习 的 方法 。 我 们 在 加 拿 大 和 
九江 的 儿 鞋 识字 教学 中 进行 试验 ， 效 有 果 民 好 。 


目前 ， 汉 字 输 入 计算 机 主要 使 用 拼音 输入 ， 拼 音 输 入 是 一 种 简捷 
而 方便 的 输入 法 ， 为 群众 喜闻乐见 。 但 是 ， 由 于 拼音 与 汉字 的 字形 之 
间 没 有 明确 关系 ， 长 期 使 用 拼音 和 输入， 往往 会 筷 记 汉字 的 字形 ， 写 字 
时 出 现 “ 提 笔 态 字 ” 的 情况 ， 有 人 把 这 种 情况 叫做 “汉字 失 写 症 ”。 我 认 
为 ， 除了 继续 使 用 和 推广 拼音 输入 法 之 外 ， 我 们 还 需要 在 计算 机 上 根 
据 汉 字 的 结构 使 用 键盘 来 书写 汉子 ， 从 而 避免 “汉子 失 写 症 ”"， 继 承 汉 
字 的 文化 传统 。“ 机 写 汉 字 学 习 法 ”使 用 键盘 来 书写 汉子 ， 有 助 于 克服 
由 于 长 期 使 用 拼音 输入 汉字 而 导致 的 “汉字 失 写 症 ” 这 种 文化 病 。 


我 们 还 开发 出 针对 外 国学 生 学 习 汉 字 的 相关 的 软件 ， 在 北京 语言 
大 学 的 部 分 外 国学 生 中 进行 过 初步 的 试验 ， 效 果 民 好 ,“ 机 写 汉字 学 习 


法 "软件 让 外 国学 生 在 学 习 " 听 说 "汉语 的 同时 ， 也 能 够 < 读 写 "汉语 ， 达 
到 “ 听 说 读 写 "四 会 的 要 求 。 

“机 写 汉字 学 习 法 "为 汉字 的 键盘 "机 写 "提供 了 一 种 方便 而 适用 的 
手段 ， 使 我 们 在 计算 机 上 输入 汉字 的 时 候 ， 永 远 也 不 会 忘记 怎样 书写 
汉字 。 这 对 于 发 扬 我 国 汉字 文化 的 优秀 传统 是 大 有 好 处 的 。 


8. 用 英语 讲授 目 然 语言 处 理 课程 


2001 年 ， 我 应 邀 到 韩国 科学 技术 院 (Korean Advanced Institute of 
Science and Technology， 简 称 KAIST) 电子 工程 与 计算 机 科学 系 担任 
教授 。KAIST 是 韩国 著名 的 理工 科大 学 ， 大 部 分 学 生 都 是 通过 严格 的 
考试 和 数学 物理 竞赛 选 出 来 的 精英 。 我 不 会 韩国 语 ， 因 此 ， 只 能 用 英 
语 给 该 系 博 士 人 研究 生 开 设 * 自 然 语 言 处 理 -II” (Natural Language 
Processing-I1， 人 简称 NLP-IT) 的 课程 。 在 这 门 课程 中 ， 我 系统 地 讲授 了 
词汇 和 目 动 分 析 、 形 态 目 动 分 析 、 句 法 上 自动 分 析 、 语 义 自 动 分 析 、 语 用 
目 动 分 析 等 自然 语言 处 理 中 的 各 种 方法 ， 受 到 韩国 学 生 的 欢迎 ， 韩 国 
科学 技术 院 还 特别 出 版 了 文集 来 纪念 我 的 这 次 讲学 四 。 


在 用 英语 备课 的 过 程 中 ， 我 发 现 美 国 Colorado 大 学 的 Daniel 
Jurafsky 和 James Martin 的 新 著 Speech and Language Processing 一 An 
Introduction to Natural Language Processing, Computational Linguistics, 
and Speech Recognition (《 语 首 和 语言 处 理 一 一 自然 语言 处 理 、 计 算 
语言 学 和 语音 识别 导论 》) 是 一 本 很 优秀 的 目 然 语言 处 理 的 教材 ， 这 
本 教材 履 凑 面 非 常 广泛 ， 理 论 分 析 十 分 深入 ， 而 且 强 调 实用 性 和 注重 
评测 技术 ， 几 乎 所 有 的 例子 都 来 自 真 实 的 语料库 。 我 想 ， 如 果 能 够 把 


这 本 优秀 的 教材 翻译 成 中 文 ， 让 国内 的 年 轻 学 子 们 也 能 学 习 本 书 ， 那 
该 是 多 么 好 的 事情 ! 


2002 年 ， 我 回国 参加 机 器 翻译 的 学 术 讨 论 会 ， 电 子 工业 出 版 社 的 
一 位 编辑 找到 我 ， 说 他 们 打算 翻译 出 版 此 书 。 这 位 编辑 说 ， 电 子 工业 
出 版 社 已 经 进行 过 调查 ， 目 前 国外 绝 大 多 数 大 学 的 计算 机 科学 系 都 采 
用 此 书 作 为 “自然 语言 处 理 ” 课 程 的 研究 生 教 材 ， 他 们 希望 我 亲自 来 翻 
译 这 本 书 ， 与 电子 工业 出 版 社 配合 ， 推 出 高 质量 的 中 文 译 本 。 电 子 工 
业 出 版 社 的 意见 与 我 原来 的 想法 不 谋 而 合 ， 于 是 ， 我 欣然 接受 了 这 本 
长 达 600 多 页 的 英文 专著 的 翻译 任务 ， 于 2003 年 开始 进行 翻译 。 


我 虽然 已 经 通读 过 这 本 书 两 遍 ， 对 于 这 本 书 应 该 说 是 有 一 定 的 理 
解 了 ， 但 是 ， 杀 目 动手 翻译 起 来 ， 却 不 像 原 来 想象 的 那样 容易 ， 妥 把 
英文 的 意思 表达 为 确切 的 中 文 ， 下 起 笔 来 ， 总 有 激 深 线 短 之 感 ， 大 量 
的 新 术语 如 何 用 中 文 来 表达 ， 也 是 项 费 周折 和 令 人 距 路 的 难题 。 


在 韩国 教书 期 间 ， 我 利用 了 全 部 的 业余 时 间 来 进行 翻译 ， 晚 上 加 
班 到 深夜 ， 连 续 工 作 了 11 个 月 ， 当 翻译 完 14 章 (全 书 的 三 分 之 二 ) 的 
时 候 ， 不 驻 患 了 黄斑 前 腊 的 服 病 ， 视 力 出 现 障 碍 ， 难 于 继续 翻译 工 
作 ， 还 剩 下 7 章 (全 书 的 三 分 之 一 ) 没有 翻译 , “ 行 百 里 者 半 九 十 ”， 这 
7 草 的 翻译 工作 究竟 如 何 来 完成 呢 ? 正当 我 束手无策 、 一 敌 莫 展 的 时 
候 ， 中 国 科学 院 软件 研究 所 的 一 位 年 轻 的 副 研 究 员 孙 乐 表示 愿意 继续 
我 的 工作 ， 协 助 我 完成 本 书 的 翻译 。 孙 乐 把 剩 下 的 7 章 逐 一 翻译 成 中 
文 ， 通 过 计算 机 网 络 一 章 一 草地 传 到 韩国 ， 我 使 用 语音 合成 痛 置 ， 让 
计算 机 把 书面 的 文本 读 出 来 ， 通 过 读 出 来 的 语音 进行 译文 的 校正 ， 语 
音 合成 技术 克服 了 我 视力 不 济 的 困扰 ， 帮 助 我 迈 过 了 重重 的 难关 。 
2004 年 ， 在 我 们 两 人 的 通力 合作 下 ， 全 书 的 翻译 总 算 大 功 告 成 了 ， 由 
电子 工业 出 版 社 以 《 目 然 语 言 处 理 综 论 》 的 书 名 出 版 。 


这 本 书 的 出 版 受到 广大 读者 的 欢迎 ， 而 我 为 此 却 损害 了 目 己 的 视 
力 ， 不 得 不 借助 于 语音 合成 装置 来 阅读 了 。 


现在 我 已 经 进入 古稀 之 年 ， 不 能 再 做 很 多 具体 的 开发 和 研究 工作 
了 ， 我 的 视力 不 济 ， 难 于 长 时 间 看 书 ， 所 以 ， 我 近来 主要 做 一 些 介绍 
和 引进 外 国 优 秀 计算 语言 学 英文 原著 的 工作 ， 为 这 些 著作 写 导 读 ， 以 
便 帮 助 年 轻 学 子 尽快 地 接触 到 当代 计算 语言 学 的 前 治 问题 。 我 写 的 导 
读 有 : 《应 用 语言 学 中 的 语料库 》 (世界 图 书 出 版 公司 & 剑 桥 大 学 出 
版 社 ，2006 年 版 ) ，《 译 者 的 电子 工具 》 (外 语 教 学 与 研究 出 版 社 ， 
2006 年 版 ) ，《 人 工 智 能 在 第 二 语言 教学 中 的 应 用 》 (世界 图 书 出 版 
公司 ，2007 年 版 ) ，《 语 言 学 中 的 数学 方法 》 (世界 图 书 出 版 公司 ， 
2009 年 版 ) ，《 和 牛津 计算 语言 学 手册 》 (外 语 教 学 与 研究 出 版 社 ， 
2009 年 版 ) ，《 自 然 语言 生成 系统 的 建造 》 (北京 大 学 出 版 社 ，2010 
年 版 ) 。 


9. SET CIE TS (EA 


2006 年 6 月 30 日 ， 联 合 国教 科 文 组 织 奥地利 委员 会 ( Austrian 
Commission for UNESCO) 、 维 也 纳 市 (City of Vienna) 和 国际 术语 
信息 中 心 (INFOTERM) 给 我 颁发 了 维 斯 特 奖 ( WüsterSpecial 
Prize) ， 表 彰 我 在 术语 学 理论 和 术语 学 方法 研究 方面 做 出 的 突出 贡 
献 。 维 斯 特 (EugenWüster, 1898—1977) 是 奥地利 著名 科学 家 ， 是 术 
语 学 和 术语 标准 化 工作 的 奠基 人 。 维 斯 特 奖 是 专门 为 那些 对 于 术语 学 
和 术语 标准 化 工作 有 出 色 成 就 的 科学 家 而 设置 的 。 


可 惜 的 是 ， 我 的 视力 越 来 越 差 ， 当 我 接受 维 斯 特 奖 的 时 候 ， 已 经 
看 不 清 次 草 上 面 的 图 案 了 。 


我 从 事 语 言 学 研究 已 经 50 多 年 了 ， 在 这 50 年 中 ， 我 始 而 弃 理学 
文 ， 继 而 弃 文 从 理 ， 后 来 又 弃 理 从 文 ， 最 后 还 古 回 到 了 语言 学 的 队 
伍 ， 看 来 我 与 语言 学 之 间 ， 确 实 有 着 割舍 不 断 的 缘分 。 


1957 年 我 第 一 次 阅读 乔 姆 斯 基 的 文章 的 时 候 ， 还 是 一 个 不 请 世事 
的 19 岁 的 青年 ， 乔 姆 斯 基 还 是 一 个 不 满 30 岁 的 年 轻 学 者 ， 现 在 ， 我 已 
经 是 日 发 爷爷 的 古稀 老人 了 ， 而 乔 姆 斯 基 已 经 82 多 了 。2010 年 8 月 ， 弄 
姆 斯 基 应 邀 访 问 北京 ， 我 和 他 见 了 面 ， 我 们 这 两 个 老人 一 起 合影 留 


Cr o 
JUS 


我 在 乔 姆 斯 基 的 影响 下 步 入 语言 学 的 殿 和 将 ， 曲 曲折 折 地 走 了 50 
年 ， 可 以 说 乔 姆 斯 基 古 我 学 习 语言 学 的 局 绽 老 师 。 我 把 我 们 合影 的 照 
片 复制 在 这 里 ， 作 为 永远 的 纪念 。 


乔 姆 斯 基 与 冯 志 伟 合影 留念 (2010 年 8 月 14 日 ) 


语言 学 是 一 门 历史 您 人、 博大 精深 的 学 问 ，50 多 年 来 ， 我 主要 是 
在 数理 语言 学 和 计算 语言 学 领域 中 人 研究 和 学 习 。 尺 管 我 现在 已 经 年 逾 
古稀 ， 并 且 一 天 天 地 变 老 但是， 我 50 年 来 一 直 如 疾 如 醉 地 钟爱 着 的 
数理 语言 学 和 计算 语言 学 还 是 一 | 门 新 兴 的 学 科 ， 她 还 非常 年 轻 ， 还 不 
够 成 熟 ， 但 是 无 疑 有 着 光辉 的 前 景 。 我 们 个 人 的 生命 是 有 限 的 ， 而 科 
学 知识 的 探讨 和 研究 却 是 无 限 的 。 我 们 个 人 渺小 的 生命 与 科学 事业 这 
栋 常 青 的 参天 大 树 相 比较 ， 显 得 多 么 地 微不足道 ! MEE, ET 
我 们 感慨 万 千 ! 


“ 书 山 有 路 勤 为 径 ， 学 海 无 涯 吾 作 舟 ”， 我 们 应 当 勤 兰 地 工作 ， 把 
个 人 的 有 限 的 生命 投入 到 无 限 的 科学 知识 的 探讨 和 研究 中 去 ， 从 而 实 
现 人 生 的 价值 。 


(本 文 原 载 《当代 外 语 研究 》，2011 年 第 1 期 ) 
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